검색결과 리스트
Data science/Data collection에 해당되는 글 2건
- 2018.08.21 비정형데이터란?
- 2018.02.06 한국어 처리 패키지 (1)
글
데이터를 수집하면서 비정형데이터라는 말을 많이 듣는다.
오늘은 데이터를 수집하면서 만나게되는 데이터의 분류를 정리하고 가려한다.
크게 정형 데이터, 반정형 데이터, 비정형 데이터 3가지로 구분된다.
정형 데이터 : Structured Data
고정된 필드에 저장된 데이터를 말하며, 관계형 데이터베이스와 스프레드시트 등에 기록된 데이터들이 이에 해당한다.
정형데이터는 설계된 대로 정보의 형태가 정해지게된다. 약속된 틀에 맞춰서 그에 해당하는 정보들을 분석할 수 있다.
비정형 데이터 : Unstructured Data
고정된 필드에 저장되어 있지 않은 데이터를 의미한다. 이미지 파일, 유투브영상, 텍스트 문서와 같은 데이터를이 이에 해당한다. 비정형 데이터의 경우에는 실시간성 데이터들이 있으며, 많은 정보들을 수집하고 분석하게 된다. 예를들면 특정 지역의 날씨 정보, 유동인구의 수, 이들의 판매정보와 같이 형태가 정해지지 않은 정보속에서 다양한 방법으로 분석할 수 있다.
반정형 데이터 : Semi-Structured Data
고정된 필드에 저장된 데이터는 아니지만 XML, HTML, META-DATA 와 같은 데이터들이 에이 해당한다.
사람이 읽기에는 적합하지만 자동으로 문서의 의미를 파악하고 분류 및 분석하기에는 힘든 구조이다. 하지만 규칙은 존재하기에 이에 따라 분석이 가능하다.
'Data science > Data collection' 카테고리의 다른 글
한국어 처리 패키지 (1) (0) | 2018.02.06 |
---|
글
데이터를 수집하고 나니 이제 이 데이터에서 어떤 의미를 뽑아낼 수 있는가를 고민하게 된다.
한국어를 수집했으니, 한국어 처리기를 다뤄야 할 것이다.
가장 널리 알려진 KoNLPy 한국어 처리 패키지를 이용해보려한다.
KoNLPy는 한국어 처리를 위한 파이썬 패키지이다 다음은 참조 웹사이트이다.
http://KoNLPy.org/ko/latest/
KoNLPy는 다양한 형태소 분석, 태깅과 라이브러리를 Python에서 사용기 쉽게 모아놓았다.
Kkma: http://kkma.snu.ac.kr/
Hannanum: http://semanticweb.kaist.ac.kr/hannanum/
Twitter: https://github.com/twitter/twitter-korean-text/
Mecab: https://bitbucket.org/eunjeon/mecab-ko-dic
KoNLPy는 또한 다음과 같은 기능을 제공한다.
한국어 말뭉치
형태소 분석 및 품사 태깅
형태소 분석
KoNLPy는 형태소 분석을 위한 클래스를 제공한다.
Kkma
Hannanum
Mecab
Komoran
위의 클래스들은 다음과 같은 메서드를 대부분 제공한다.
morphs : 형태소 추출
nouns : 명사 추출
pos : pos 태깅
-------------------------
from konlpy.tag import *
hannanum = Hannanum()
kkma = Kkma()
twitter = Twitter()
-------------------------
다음과 같은 선언으로 클래스를 사용할 수 있다.
---------------------------
hannanum.nouns(sentence)
kkma.nouns(sentence)
twitter.nouns(sentence)
---------------------------
문장에서 명사를 추출해 낸 것을 볼 수 있다.
모든 형태소 추출
-------------------------------
hannanum. morphs(sentence)
kkma. morphs(sentence)
twitter. morphs(sentence)
-------------------------------
품사 추가
--------------------------------
hannanum. pos(sentence)
kkma. pos(sentence)
twitter. pos(sentence)
--------------------------------
'Data science > Data collection' 카테고리의 다른 글
비정형데이터란? (0) | 2018.08.21 |
---|
RECENT COMMENT