검색결과 리스트
글
데이터를 수집하고 나니 이제 이 데이터에서 어떤 의미를 뽑아낼 수 있는가를 고민하게 된다.
한국어를 수집했으니, 한국어 처리기를 다뤄야 할 것이다.
가장 널리 알려진 KoNLPy 한국어 처리 패키지를 이용해보려한다.
KoNLPy는 한국어 처리를 위한 파이썬 패키지이다 다음은 참조 웹사이트이다.
http://KoNLPy.org/ko/latest/
KoNLPy는 다양한 형태소 분석, 태깅과 라이브러리를 Python에서 사용기 쉽게 모아놓았다.
Kkma: http://kkma.snu.ac.kr/
Hannanum: http://semanticweb.kaist.ac.kr/hannanum/
Twitter: https://github.com/twitter/twitter-korean-text/
Mecab: https://bitbucket.org/eunjeon/mecab-ko-dic
KoNLPy는 또한 다음과 같은 기능을 제공한다.
한국어 말뭉치
형태소 분석 및 품사 태깅
형태소 분석
KoNLPy는 형태소 분석을 위한 클래스를 제공한다.
Kkma
Hannanum
Mecab
Komoran
위의 클래스들은 다음과 같은 메서드를 대부분 제공한다.
morphs : 형태소 추출
nouns : 명사 추출
pos : pos 태깅
-------------------------
from konlpy.tag import *
hannanum = Hannanum()
kkma = Kkma()
twitter = Twitter()
-------------------------
다음과 같은 선언으로 클래스를 사용할 수 있다.
---------------------------
hannanum.nouns(sentence)
kkma.nouns(sentence)
twitter.nouns(sentence)
---------------------------
문장에서 명사를 추출해 낸 것을 볼 수 있다.
모든 형태소 추출
-------------------------------
hannanum. morphs(sentence)
kkma. morphs(sentence)
twitter. morphs(sentence)
-------------------------------
품사 추가
--------------------------------
hannanum. pos(sentence)
kkma. pos(sentence)
twitter. pos(sentence)
--------------------------------
'Data science > Data collection' 카테고리의 다른 글
비정형데이터란? (0) | 2018.08.21 |
---|
RECENT COMMENT