반응형
탐색적 데이터 분석(EDA)
- Exploratory Data Analysis의 약자
- 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미
- 본격적인 데이터 분석 전 자료를 직관적인 방법으로 통찰하는 과정
- 탐색적 데이터 분석을 통해 데이터에 대한 이해도를 높이고 더 정교한 모델 개발
탐색적 데이터 분석의 필요성
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상 이해
- 내재된 잠재적 문제를 인식하고 해결안 도출
- 문제 발견시 분석 전 데이터의 수집 의사 결정할 수 있음
- 문제정의 단계에서 인지 못한 새로운 양상 및 패턴 발견
- 새로운 양상 발견 시 초기설정 문제의 가성 수정, 새로운 가설 설립
분석과정 및 절차
- 변수 확인
- 분석의 목적과 변수가 무엇인지
- 개별변수의 이름이나 설명을 가지는지
- 데이터 문제성 확인
- 결측치와 이상치 유무 등 확인
- 추가적으로 분포상의 이상 형태와 Head 또는 Tail 부분 확인
- 데이터의 개별 속성값 확인
- 예상한 범위 분포를 가지는지
- 분포 확인은 기초통계산술을 통한 확인
- 관계속성 확인
- 개별 데이터 간 속성 관찰에서 보지 못한 데이터 간 속성(상관관계 등) 확인
이상치 검출
- 이상치 발생 의미 파악에 중점
- 의미 파악 후 어떻게 대처해야 할지(제거, 대체, 유지 등) 판단
개별 데이터 관찰
- 데이터 값을 눈으로 살펴보면서 전체적인 추세와 특이사항 관찰
- 패턴이 뒤에서 나타날 수도 있으므로 뒤 혹은 무작위 표본을 추출해서 관찰
- 데이터가 많다고 앞부분만 보면 안 됨
- 단, 이상치는 표본의 크기가 작은 경우 나타나지 않을 수 있음
통계값 활용
- 적절한 요약 통계지표(Summary Statistics) 사용
- 데이터의 중심을 알기 위해 평균(mean), 중앙값(median), 최빈값(mode) 사용
- 데이터의 분산도를 알기 위해 범위(range), 분산(variance) 사용
- 통계 지표를 이용할 때에는 데이터 특성에 주의
- 예) 평균 : 집합 내 모든 데이터 반영,
- 이상값 : 값 영향 받음
- 중앙값 : 이상값의 존재에도 대표성이 있는 결과 도출
시각화 활용
- 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정
- 시각화 방법
- 확률밀도 함수
- 히스토그램
- 점 플롯(dot plot)
- 워드 클라우드
- 시계열 차트
- 지도 등
머신러닝 기법 활용
- 대표적인 머신러닝 기법인 K-means를 통해 이상치 확인
참고
반응형