2 minute read

어휘사전 구축을 하게 되면, 시소: 러스는 필수적으로 알아야 하는 내용이다.

개념부터 해서 어떤식으로 사전을 구축하는지 알아보도록 하자.

목차

  1. 나무위키 시소러스
  2. 국립중앙 도서관 시소러스
  3. 시소러스 정리
  4. 시소러스 관계 구조
  5. 시소러스 관계 구조의 문제점

1. 나무위키 시소러스

thesaurus

어떤 단어의 __동의어__나 __유의어__를 집중적으로 보여주는 사전이다. __영어__사전에서 자주쓰이며, 동의어나 유의어를 다루는 사람들에게 유용한 정보를 제공한다.

영어 ‘Thesaurus’는 라틴어 thesaurus에서 유래했는데, 이 라틴어 단어는 같은 뜻의 고대 그리스어 θησαυρός(테사우로스)의 차용어이다. 이는 본디 보물, 비축물; 창고라는 뜻을 가진 단어인데, 16세기의 사전 편찬자들이 ‘Thesaurus Verborum’(단어의 창고)’라는 단어를 사용했고 1852년 로제가 자신의 책 제목으로 여기서 ‘Thesaurus’를 따와 쓰면서 오늘날의 뜻으로 알려지게 되었다.

컴퓨터 용어

데이터 검색__을 위한 __키워드간의 관계__를 보여주는 통제되고 구조화된 어휘집. 일종의 정보 검색을 위하여 컴퓨터에 기억된 용어사전. 주로 __동의어, 반의어 및 용어의 계층 관계를 말하며 자연어를 통제된 언어로 변환하기 위한 어휘 통제 도구이다. 시소러스를 통해 상이한 용어로 동일한 개념을 표현하고 있는 기록이나 정보, 문헌을 함께 검색할 수 있다. 이를 통해 검색의 재현율을 향상할수 있다. __동음이의어 통제__를 통해 정확률을 높일수도 있다.

2. 국립중앙도서관 시소러스

  • 용어범주: 주제어
  • 설명
    • 사용자에게 어떤 용어의 가장 유사한 또는 직접적인 동의어나 의미를 알 수 있게 하고, 작가나 시인, 프로그램 작성자에게 도움이 되도록 모인, 그 용어에 가까운 알파벳순 항목들의 집합(또는 어떤 다른 개념으로 모인, 의미있는 집합으로 모인 항목들의 집합)
    • 계산에서 색인, 식별 또는 분류 등에 사용되며 데이터 저장과 데이터 은행에서 정보를 꺼내는 데 쓰이는 단어나 용어들의 집합, 즉 주 용어들은 레이블, 핵심어 키워드 또는 기술부 등으로 서비스를 하며, 이러한 언급이 관련 항목 색인표를 통하여 인용될 떄 매우 유용한 색인이 만들어진다.
    • 정보 검색을 윟나 키(색인)와 단어 간의 관계, 즉 동의어, 하의어 (그 색인에 속하는 용어), 관련어 등의 관계를 나타낸 색인표.

3. 시소러스 정리

자료를 찾기위해 입력하는 키워드(검색어) 간의 관계를 나타내는 __사전__을 __시소러스__라고 한다. 여기에는 동의어, 하위어, 상위어, 관련어 등의 관계로 표현된다.

검색엔진 지식그래프와 비슷하다? (이건 나중에 좀더 알아보겠음)

검색에 사용되는 키워드 관련된 내용을 최대한 많이 꺼내, 보다 폭 넓꼬 다양한 검색을 할 수 있도록 하기 위함, 여기에 더해 색인을 만들 때 일관성 있도록 하기 위한 목적이 있다.

시소러스는 다양한 뜻을 지닌 검색어와 문헌을 하나로 통합해 사용하기 위한 주제명표목표가 발전된 개념이다. 용어와 개념간의 관계를 제시하여 적절한 용어를 선정하는데 도움을 준다.

즉, 키워드와 관련된 용어를 한 번에 제시하여 효율적인 검색을 수행하기 위한것이 시소러스 이다.

  • 릴레이션
    • 동등관계: 색인표먹(기본형)으로 채택되지 않는 용어는 USE 참조표시로 채택된 색인표묙으로 연결한다. 여기서 USE와 UF는 서로 역관계이다.
      • USE: 대표어
      • UF: 동의어
    • 계층관계: 특정 용어의 상위어(BT)나 하위어(NT) 간의 관계로써 종속관계 (+G), 사례관계(+I), 전체와 부분(+P)의 관계로 표현되기도 한다. 여기서 BT와 NT는 서로 역관계이다. (예) 상위 종속관계(BT+I) 하위 전체와 부분관계(NT+P=NTP)
      • BT: 상위어
      • NT: 하위어
    • 연관(연상)관계: 동등관계나 계층관계에 포함되지 않은 용어는 대부분 관려성을 나타내는 연관관계에 포함되며 RT로 표현한다.
      • RT
    • 용어설명
      • SN
    • 영어
      • ENG

시소러스 관계 구조

시소러스 용어의 의미 체계서 가장 중요한 관계는 BT(Broad Term)와 NT(Narrow Term), RT(Related Term) 로 표현된 개념간의 관계이다. 개념 간의 관계를 보조 하는 장치로서 동의어나 유사동의어 또는 반의어(드물게) 반의어를 표현하기 위한 우선어/비우선어 관계를 사용한다.

또한 용어의 다의성 문제를 해결하기 위해 한정어를 상용하기도 한다. 또한 용어의 분류를 위해 계층 분류 방식이나 패싯을 사용하기도 한다.

참고

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sgjjojo&logNo=221272842350 https://tsdownload.i-scream.co.kr/tscream/v1.0/resources/download/Knowledge%20Graph,%20Knowledge%20Map,%20Ontology,%20Linked%20Data,%20Semantic%20Web.pdf

Categories:

Updated: