Data science/Google Analytics

데이터 분석 프로세스

M1zz 2018. 10. 17. 17:30

데이터 분석이란 가공되지 않은 데이터를 가치있고, 의미있는 데이터로 가공하여 의사결정의 근거로 사용할 수 있도록 의미를 해석하는 행위를 말한다.

데이터 분석은 프로세스를 가지고 이는 다섯단계로 분류된다.

문제 정의 > 데이터 수집 > 데이터 처리 > 데이터 분석 > 시각화 > 피드백 후 반복 의 과정을 거친다.


문제정의 

문제를 정의하는 이 단계는 분석단계 중 가장 중요하다고 할 수 있다. 만약 이 단계에서 잘못된 문제를 정의하면 정확한 분석이 이루진다고 해도 의미가 없을 수 있기 때문이다. 데이터 분석가는 분석 요청자로부터 의미가 모호한 요구사항을 해석하고 구체화하여, 필요한 데이터들을 나열하고 정리한다.


이 때 데이터 분석가는 분석 요청자의 모호한 언어를 개발적인 언어로 번역 하며, 요청자의 니즈를 파악하여 해결해야 할 문제를 정의한다. 또한 구체화 과정에서 수학적 지식과 지표의 타당성을 고려할 필요가 있으며, 비즈니스적 연결성을 고려하여 명확한 목표를 설정한다.


데이터 수집

최근에는 사용자의 행동 패턴을 파악하기 위해 행동 기록인 로그를 수집하기도 한다. 이 외에도 필요한 데이터를 수집하는 과정을 모두 데이터 수집단계라고 한다. 수기로 수집할 수도 있으며, 자동화된 툴을 이용하여 수집할 수도 있다. 



데이터 처리

의미있는 데이터 추출, 필터링, 그룹핑, 조인 등 (SQL)

이상치 제거, 분포 변환, 표준화, 카테고리화, 차원 축소 등 (Python/R)

첫번째 항목의 경우 주로 SQL(데이터 베이스)을 활용하며, 여러 데이터 소스(DB, Hadoop 등)로부터 데이터 분석을 위한 기본적인 테이블을 만드는 단계이다. 이 단계에서 가장 중요한 점은 테이블과 컬럼의 명칭, 처리/집계 기준, 데이터 조인시 데이터 증식 방지 등이며, 데이터 엔지니어로부터 도움이 필요한 경우가 많다.

두번째 항목의 경우, 데이터 분석가가 주도적으로 R이나 Python으로 진행하는 경우가 많으며, 의미 있는 분석 결과나 성능 좋은 모델을 만들기 위해 가장 중요한 단계라 할 수 있다. 대부분의 분석가는 이 과정에서 많은 시간을 소요하며, 모델의 성능 개선이나 프로세스 종료 후 반복되는 분석 진행시 이 과정으로 돌아와서 개선을 하는 경우가 많다.


데이터 분석

분석 영역은 사실 매우 큰 영역을 가리킨다. 도메인과 고려해야 할 상황에 따라 데이터를 분석한다.

소개할 만한 방법을 나열하면 다음과 같다.

지표 정의 및 트래킹

비즈니스와 관련한 주요 지표를 개발/산출하고 대시보드 및 리포트를 통해 트래킹

탐색적 데이터 분석

그룹별 평균, 합 등 현황 확인

분포 확인

통계분석

가설 검정, 모수 추정

변수간 관계 파악 및 변수간 영향력 파악

통계 모형 구축

차원 축소(요인분석, 군집분석)

머신러닝

분류 및 회귀 문제 해결 (지도학습)

추천 및 이상치 탐지, 클러스터링 등 (비지도학습)


리포팅 및 피드백 반영

분석 결과 및 인사이트를 보기쉽게 전달하는 과정은 매우 중요하다. 정확한 분석 결과를 도출했다하더라도 리포팅 단계가 제대로 진행되지 않으면 그 효과가 반감된다. 

리포팅 해야 할 때의 주의해야 할 점을 나열하면 다음과 같다.

내용을 이해하는 사람은 분석가가 아닌 상대방

상대가 쉽게 이해할 수 있는 단어 사용

상대의 입장과 니즈에 맞춰 생각하고 결과를 정리

문제를 정의하고 해결 방법을 재확인

데이터 분석 과정 보다는 문제 해결 결과 중심으로 전달

짧은 문장과 명확한 수치로 정보전달

핵심 요약 내용 먼저 전달 후 그 근거들을 나열

다양한 그래프와 같은 시각화 도구를 활용

항목간 비교시 원 그래프는 지양하고 막대 그래프 위주

시계열은 라인으로(실선)

분포는 히스토그램이나 박스플롯

변수간 관계는 산점도

제대로 분석되었는지 검증하며, 개선해야 할 점이 있다면 문제해결 단계로 다시 돌아가서 피드백을 반영해 분석을 진행한다.