한국어 처리 패키지 (1)

Data science/Data collection 2018. 2. 6. 17:10

데이터를 수집하고 나니 이제 이 데이터에서 어떤 의미를 뽑아낼 수 있는가를 고민하게 된다.


한국어를 수집했으니, 한국어 처리기를 다뤄야 할 것이다.


가장 널리 알려진 KoNLPy 한국어 처리 패키지를 이용해보려한다.


KoNLPy는 한국어 처리를 위한 파이썬 패키지이다 다음은 참조 웹사이트이다.


http://KoNLPy.org/ko/latest/


KoNLPy는 다양한 형태소 분석, 태깅과 라이브러리를 Python에서 사용기 쉽게 모아놓았다.


Kkma: http://kkma.snu.ac.kr/

Hannanum: http://semanticweb.kaist.ac.kr/hannanum/

Twitter: https://github.com/twitter/twitter-korean-text/

Mecab: https://bitbucket.org/eunjeon/mecab-ko-dic


KoNLPy는 또한 다음과 같은 기능을 제공한다.


한국어 말뭉치

형태소 분석 및 품사 태깅


형태소 분석

KoNLPy는 형태소 분석을 위한 클래스를 제공한다.


Kkma

Hannanum

Twitter

Mecab

Komoran


위의 클래스들은 다음과 같은 메서드를 대부분 제공한다.


morphs : 형태소 추출

nouns : 명사 추출

pos : pos 태깅


-------------------------

from konlpy.tag import *

hannanum = Hannanum()

kkma = Kkma()

twitter = Twitter()

-------------------------

다음과 같은 선언으로 클래스를 사용할 수 있다.


---------------------------

hannanum.nouns(sentence)

kkma.nouns(sentence)

twitter.nouns(sentence)

---------------------------



문장에서 명사를 추출해 낸 것을 볼 수 있다.



모든 형태소 추출

-------------------------------

hannanum. morphs(sentence)

kkma. morphs(sentence)

twitter. morphs(sentence)

-------------------------------



품사 추가

--------------------------------

hannanum. pos(sentence)

kkma. pos(sentence)

twitter. pos(sentence)

--------------------------------



'Data science > Data collection' 카테고리의 다른 글

비정형데이터란?  (0) 2018.08.21
posted by M1zz