검색결과 리스트
글
데이터를 수집하면서 비정형데이터라는 말을 많이 듣는다.
오늘은 데이터를 수집하면서 만나게되는 데이터의 분류를 정리하고 가려한다.
크게 정형 데이터, 반정형 데이터, 비정형 데이터 3가지로 구분된다.
정형 데이터 : Structured Data
고정된 필드에 저장된 데이터를 말하며, 관계형 데이터베이스와 스프레드시트 등에 기록된 데이터들이 이에 해당한다.
정형데이터는 설계된 대로 정보의 형태가 정해지게된다. 약속된 틀에 맞춰서 그에 해당하는 정보들을 분석할 수 있다.
비정형 데이터 : Unstructured Data
고정된 필드에 저장되어 있지 않은 데이터를 의미한다. 이미지 파일, 유투브영상, 텍스트 문서와 같은 데이터를이 이에 해당한다. 비정형 데이터의 경우에는 실시간성 데이터들이 있으며, 많은 정보들을 수집하고 분석하게 된다. 예를들면 특정 지역의 날씨 정보, 유동인구의 수, 이들의 판매정보와 같이 형태가 정해지지 않은 정보속에서 다양한 방법으로 분석할 수 있다.
반정형 데이터 : Semi-Structured Data
고정된 필드에 저장된 데이터는 아니지만 XML, HTML, META-DATA 와 같은 데이터들이 에이 해당한다.
사람이 읽기에는 적합하지만 자동으로 문서의 의미를 파악하고 분류 및 분석하기에는 힘든 구조이다. 하지만 규칙은 존재하기에 이에 따라 분석이 가능하다.
'Data science > Data collection' 카테고리의 다른 글
한국어 처리 패키지 (1) (0) | 2018.02.06 |
---|
RECENT COMMENT