less than 1 minute read

나는 자바에서 토크나이징을 할때, 한나눔 기반 형태소 분석기를 튜닝한 자체 형태소 분석기를 사용한다.

그런데 이번에 es nori로 변경하려 하다 보니, 서로간의 형태소 태그를 매핑해줘야 하는 일이 발생하였다. (뭐 큰일은 아니지만,)

이런 작업을 하면서, 그냥 표를 코드로 정리할겸 글을 적어본다.

0. 형태소

일단 형태소 란 무엇일까?

언어학에서 형태소란 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것이라고 한다.

즉 더이상 분리,분석 하면 뜻이 없어지는 말의 단위라고 한다. 음소와 마찬가지로 형태소는 추상적인 실체이며 발화에서 다양한 형태로 실현된다.

한국어 품사 태그 분석은 세종 프로젝트 산출물인 세종 품사 태그와 심광섭 품사 태그가 주로 사용되는데 한국어는 기본적으로 5언 9품사 (9 POS) 를 사용한다.

하지만 형태소 분석기에 따라 5언(체언, 용언, 수식언, 독립언, 관계언) + 기타 (어미, 접두사, 접미사, 어근, 부호, 한글 이외) 등 외에도 각각 프로젝트 마다 세부 품사들이 나누어 진다.

이번 프로젝트에선 이 세분화된 품사 태그들을 매핑해주는 프로젝트를 진행 하고자 한다.

기준은 세종태그

1. 비교 분석기

Korean POS tags comparison chart 에 나와있는 Sejong(ntags = 42), Sim Gwangsub(26), Twitter(19), Komoran(42), Mecab(43), Kkma(10), Kkma(30), Kkma(56), Hannanum(9), Hannanum(22), Hannanum(26), Hannanum(26), Hannanum(69) 들을 다룬다.

2. 자바로 만드는 형태소 매퍼.

Categories:

Updated: