빅데이터 탐색 - 데이터 전처리 - 데이터 이상값 처리

반응형

 

데이터 이상값 정의

  • 이상치, Outlier 라고도 부름
  • 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미
  • 데이터 전처리 과정에 발생 가능한 문제
    • 데이터 수집과정에서 이상치 포함
    • 극단적인 값의 발생으로 인한 이상치
    • 즉, 분석결과의 왜곡 발생 가능성 존재

이상치의 종류

  • 단변수 이상치(Univariate Outlier)
    • 하나의 데이터 분포에서 발생하는 이상치를 의미
  • 다변수 이상치(Multivariate Outlier)
    • 복수의 연결된 데이터 분포공간에서 발생하는 이상치를 의미

이상치의 발생 원인

비자연적 이상치 발생(Artificial/Non-Natural Outlier)

  • 입력 실수(Data Entry Error)
    • 데이터 수집과정에서 발생하는 에러
    • 입력의 실수 등을 지칭
  • 측정 오류(Measurement Error)
    • 데이터의 측정 중에 발생하는 에러
    • 측정기 고장(이상 작동) 등을 지칭
  • 실험 오류(Experimental Error)
    • 실험과정 중 발생하는 에러
    • 실험 환경에서 야기된 모든 문제점 지칭
  • 의도적 이상치(Intentional Outlier)
    • 자기 보고 측정(Self-reported Measure)에서 발생하는 에러
    • 자기 보고 측정에서 발생하는 이상치(의도가 포함된)를 지칭
      • 예) 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우
  • 자료 처리 오류(Data Processing Error)
    • 분석 시, 분석 전의 전처리에서 발생하는 에러
  • 표본 오류(Sampling Error)
    • 모집단에서 표본을 추출하는 과정에서 발생하는 에러
    • 편향이 발생하는 경우를 지칭

자연적 이상치(Natural Outlier)

  • 비자연적 이상치 이외의 발생하는 이상치

이상치의 문제점

  • 이상치가 무작위성(Non-Randomly)을 갖고 분포되면 데이터의 정상성(Normality) 감소 초래하여 발생하는 문제점
  • 기초(통계적) 분석 결과의 신뢰도 저하
    • 평균, 분산 등에 영향을 줌
    • 단, 중앙값은 영향이 적음
  • 기초통계에 기반한 다른 고급 분석의 신뢰성 저하
    • 검정/추정 등의 분석, 회귀분석 등에 영향을 줌

이상치의 탐지

  • 고려사항
    • 종속변수가 다변량(Univariate)인지, 다변량(Multivariate)인지
    • 데이터의 분포가 모수적(Prametric)인지, 비모수적(Non-Parametric)인지
  • 시각화(Visualization)를 통한 방법 (예: 비모수적, 단변량(2변량)의 경우)
    • 상자 수염 그림(상자 그림,Box plot)
    • 줄기-잎 그림(Stem and Leaf Diagram)
    • 산점도 그림(Scatter Plot)
  • Z-Score를 통한 방법 (예: 모수적 단변량 또는 저변량의 경우)
    • 정규화를 통해 특정 한계점(threshold)을 벗어난 경우 이상치 판별
    • 통상적으로 사용되는 한계점
      • 1 표준편차 사이(전체의 68.27%)
      • 2 표준편차 사이(전체의 95.45%)
      • 3 표준편차 사이(전체의 99.73%)
      • 그 외 용도에 따라 정밀도를 높여 제거

  • 밀도기반 클러스터링 방법(DBSCAN)
    • Density Based Spatial Clustering of Application with Noise의 약자
    • 비모수적 다변량의 경우 군집간의 밀도 이용
    • 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법
    • 정의된 군집에서 먼거리에 있는 데이터는 이상치로 간주
  • 고립 의사나무 방법(Isolation Forest)
    • 비모수적 다변량의 경우 의사결정나무(Decision Tree) 이용
    • 정상치의 단말 노드(Terminal node)보다 이상치의 노드에 이르는 길이(Path Length)가 더 짧은 성질을 이용하는 방법

참고

 

 

반응형