MeCab 메카브 형태소 분석기

은전한닢 메카브 형태소 분석기

MeCab 형태소분석기에 대해서 간단히 설명하려고 합니다.

MeCab은 이제 우리나라에서 상당히 유명한 형태소 분석기가 되었지만 Mecab(메카부)는 일본어 형태소 분석기입니다.

영어로는 “미캡”이라고 읽어야 하는 것이 맞겠지만 원래 프로젝트 페이지에 카타가나 일본어 표기로 “메카부”라고 되어 있고 일본인들도 대부분 메카부라고 읽기 때문에 “메카부”라고 읽는 것이 맞습니다. 사실 이건 그리 중요하지는 않습니다.

어쨌든 이 포스트에서도 메카부로 읽고 쓰겠습니다.

원래 NTT(일본 통신)에서 배포하는 오픈소스 일본어 형태소분석기이고 제작자는 구글로 이직한 것으로 알려져 있습니다.

상당히 좋은 성능으로 오랫동안 일본에서 가장 많이 쓰이는 오픈소스 형태소분석기 중 하나였습니다.

한국에는 변변한 오픈소스 형태소분석기가 없었던 시절 일본어와 문법체계가 비슷한 한국어를 위해 Mecab를 한국어 용으로 포팅한 은전한닢이라는 프로젝트가 생겨 Mecab를 한국어 용으로 사용하면서 한글 및 한국어 자연어처리 발전에 상당히 기여했습니다.

원본 Mecab를 한국어에서 사용할 수 있는가?

없습니다. 일본어는 한국어와 다르고 일본어에는 필요 없는 것과 한국어에만 있는 것을 적용하는 작업이 필요한데 그 작업을 해 놓은 것이 은전한닢입니다.

은전한닢의 학습 데이터는 어떤 것을 사용했는가?

세종계획 말뭉치와 다른 소스를 사용하고 있다고 알려져 있고 세종계획말뭉치로 학습을 해서 사용해보면 거의 같습니다.

메카부의 구성

메카부는 C++로 작성했습니다. C++만든 모듈은 대부분의 언어에 바인딩을 할 수 있기 때문에 대부분의 언어에서 지원이 가능합니다.

C++, Java, Python, R 등이고 모두 패키지가 있습니다. 물론 안되는 것도 많습니다.

기타 자료

현재는 여러곳에서 파생된 패키지와 소스를 받을 수 있습니다.

Mecab 위키피디아 설명

https://en.wikipedia.org/wiki/MeCab

Mecab 일본어 웹버전

https://fasiha.github.io/mecab-emscripten/

https://github.com/fasiha/mecab-emscripten#mecab-on-the-web

은전한닢 프로젝트 페이지

https://eunjeon.blogspot.com/

Author: 떰학

답글 남기기