빅데이터 탐색 - 데이터 탐색의 개요

반응형

 

탐색적 데이터 분석(EDA)

  • Exploratory Data Analysis의 약자
  • 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미
  • 본격적인 데이터 분석 전 자료를 직관적인 방법으로 통찰하는 과정
  • 탐색적 데이터 분석을 통해 데이터에 대한 이해도를 높이고 더 정교한 모델 개발

탐색적 데이터 분석의 필요성

  • 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상 이해
  • 내재된 잠재적 문제를 인식하고 해결안 도출
    • 문제 발견시 분석 전 데이터의 수집 의사 결정할 수 있음
  • 문제정의 단계에서 인지 못한 새로운 양상 및 패턴 발견
    • 새로운 양상 발견 시 초기설정 문제의 가성 수정, 새로운 가설 설립

분석과정 및 절차

  1. 변수 확인
    • 분석의 목적과 변수가 무엇인지
    • 개별변수의 이름이나 설명을 가지는지
  2. 데이터 문제성 확인
    • 결측치와 이상치 유무 등 확인
    • 추가적으로 분포상의 이상 형태와 Head 또는 Tail 부분 확인
  3. 데이터의 개별 속성값 확인
    • 예상한 범위 분포를 가지는지
    • 분포 확인은 기초통계산술을 통한 확인
  4. 관계속성 확인
    • 개별 데이터 간 속성 관찰에서 보지 못한 데이터 간 속성(상관관계 등) 확인

이상치 검출

  • 이상치 발생 의미 파악에 중점
  • 의미 파악 후 어떻게 대처해야 할지(제거, 대체, 유지 등) 판단

개별 데이터 관찰

  • 데이터 값을 눈으로 살펴보면서 전체적인 추세와 특이사항 관찰
  • 패턴이 뒤에서 나타날 수도 있으므로 뒤 혹은 무작위 표본을 추출해서 관찰
    • 데이터가 많다고 앞부분만 보면 안 됨
  • 단, 이상치는 표본의 크기가 작은 경우 나타나지 않을 수 있음

통계값 활용

  • 적절한 요약 통계지표(Summary Statistics) 사용
  • 데이터의 중심을 알기 위해 평균(mean), 중앙값(median), 최빈값(mode) 사용
  • 데이터의 분산도를 알기 위해 범위(range), 분산(variance) 사용
  • 통계 지표를 이용할 때에는 데이터 특성에 주의
    • 예) 평균 : 집합 내 모든 데이터 반영,
    • 이상값 : 값 영향 받음
    • 중앙값 : 이상값의 존재에도 대표성이 있는 결과 도출

시각화 활용

  • 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정
  • 시각화 방법
    • 확률밀도 함수
    • 히스토그램
    • 점 플롯(dot plot)
    • 워드 클라우드
    • 시계열 차트
    • 지도 등

머신러닝 기법 활용

  • 대표적인 머신러닝 기법인 K-means를 통해 이상치 확인

참고

반응형