MyCloud

한국어 자연어처리 관련 라이브러리 정리 본문

Knowledge/Natural Language

한국어 자연어처리 관련 라이브러리 정리

Swalloow 2016. 10. 16. 03:14



Natural Language Processing


파이썬은 한국어 자연어처리를 위해 다양한 라이브러리가 존재합니다.

그 중에서 자주 사용하며 필수적인 몇 가지 라이브러리에 대해 소개하겠습니다.



1. KoNLPy

KoNLPy는 한국어 형태소 분석기로써 Twitter, Komoran, Mecab 등 다양한

형태소 분석기를 모듈화하여 내장하고 있다는 장점이 있습니다.

또한, 문서화가 잘되어 있어 사용하기 편리합니다!


링크 : http://konlpy.org/ko/v0.4.4/




2. hanja

hanja는 한자를 한글로 변환시켜주는 라이브러리입니다.

한자가 껴있는 텍스트인 경우 전처리 과정에서 많이 사용합니다.


링크 : https://pypi.python.org/pypi/hanja




3. hangulize

hangulize는 외래어를 한글로 변환시켜주는 라이브러리입니다.

마찬가지로 전처리 과정에서 많이 사용합니다.


링크 : https://github.com/sublee/hangulize




4. Open hangul

오픈한글은 한국어 감성사전을 API 형태로 제공합니다.

이를 통해 단어에 대한 긍정/부정 결과를 얻으실 수 있습니다.


링크 : http://api.openhangul.com/




5. Gensim

Gensim은 자연어처리를 위한 다양한 모델을 지원합니다.

한국어를 포함한 다양한 언어를 지원한다는 장점이 있습니다.

지원하는 모델은 주로 Topic Modeling과 Word Embedding 입니다.


링크 : https://radimrehurek.com/gensim/




이 밖에도 scikit-learn과 같이 머신러닝을 쉽게 할 수 있도록 도와주는 라이브러리가 있습니다!




Comments