MyCloud
한국어 자연어처리 관련 라이브러리 정리 본문
Natural Language Processing
파이썬은 한국어 자연어처리를 위해 다양한 라이브러리가 존재합니다.
그 중에서 자주 사용하며 필수적인 몇 가지 라이브러리에 대해 소개하겠습니다.
1. KoNLPy
KoNLPy는 한국어 형태소 분석기로써 Twitter, Komoran, Mecab 등 다양한
형태소 분석기를 모듈화하여 내장하고 있다는 장점이 있습니다.
또한, 문서화가 잘되어 있어 사용하기 편리합니다!
링크 : http://konlpy.org/ko/v0.4.4/
2. hanja
hanja는 한자를 한글로 변환시켜주는 라이브러리입니다.
한자가 껴있는 텍스트인 경우 전처리 과정에서 많이 사용합니다.
링크 : https://pypi.python.org/pypi/hanja
3. hangulize
hangulize는 외래어를 한글로 변환시켜주는 라이브러리입니다.
마찬가지로 전처리 과정에서 많이 사용합니다.
링크 : https://github.com/sublee/hangulize
4. Open hangul
오픈한글은 한국어 감성사전을 API 형태로 제공합니다.
이를 통해 단어에 대한 긍정/부정 결과를 얻으실 수 있습니다.
링크 : http://api.openhangul.com/
5. Gensim
Gensim은 자연어처리를 위한 다양한 모델을 지원합니다.
한국어를 포함한 다양한 언어를 지원한다는 장점이 있습니다.
지원하는 모델은 주로 Topic Modeling과 Word Embedding 입니다.
링크 : https://radimrehurek.com/gensim/
이 밖에도 scikit-learn과 같이 머신러닝을 쉽게 할 수 있도록 도와주는 라이브러리가 있습니다!