한국어 처리 패키지 (1)

Data science/Data collection 2018. 2. 6. 17:10

데이터를 수집하고 나니 이제 이 데이터에서 어떤 의미를 뽑아낼 수 있는가를 고민하게 된다.

한국어를 수집했으니, 한국어 처리기를 다뤄야 할 것이다.

가장 널리 알려진 KoNLPy 한국어 처리 패키지를 이용해보려한다.

KoNLPy는 한국어 처리를 위한 파이썬 패키지이다 다음은 참조 웹사이트이다.

http://KoNLPy.org/ko/latest/

KoNLPy는 다양한 형태소 분석, 태깅과 라이브러리를 Python에서 사용기 쉽게 모아놓았다.

Kkma: http://kkma.snu.ac.kr/

Hannanum: http://semanticweb.kaist.ac.kr/hannanum/

Twitter: https://github.com/twitter/twitter-korean-text/

Mecab: https://bitbucket.org/eunjeon/mecab-ko-dic

KoNLPy는 또한 다음과 같은 기능을 제공한다.

한국어 말뭉치

형태소 분석 및 품사 태깅

형태소 분석

KoNLPy는 형태소 분석을 위한 클래스를 제공한다.

Kkma

Hannanum

Twitter

Mecab

Komoran

위의 클래스들은 다음과 같은 메서드를 대부분 제공한다.

morphs : 형태소 추출

nouns : 명사 추출

pos : pos 태깅

-------------------------

from konlpy.tag import *

hannanum = Hannanum()

kkma = Kkma()

twitter = Twitter()

-------------------------

다음과 같은 선언으로 클래스를 사용할 수 있다.

---------------------------

hannanum.nouns(sentence)

kkma.nouns(sentence)

twitter.nouns(sentence)

---------------------------

문장에서 명사를 추출해 낸 것을 볼 수 있다.

모든 형태소 추출

-------------------------------

hannanum. morphs(sentence)

kkma. morphs(sentence)

twitter. morphs(sentence)

-------------------------------

품사 추가

--------------------------------

hannanum. pos(sentence)

kkma. pos(sentence)

twitter. pos(sentence)

--------------------------------

'Data science > Data collection' 카테고리의 다른 글

비정형데이터란? (0)	2018.08.21

posted by M1zz

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

컴알못의 컴퓨터공부

검색결과 리스트

글

한국어 처리 패키지 (1)

설정

트랙백

댓글

'Data science > Data collection' 카테고리의 다른 글

CATEGORY

TAG

RECENT POSTS

RECENT COMMENT

NOTICE

MY LINK

ARCHIVE

calendar

검색

COUNTER

티스토리툴바