반응형
데이터 이상값 정의
- 이상치, Outlier 라고도 부름
- 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미
- 데이터 전처리 과정에 발생 가능한 문제
- 데이터 수집과정에서 이상치 포함
- 극단적인 값의 발생으로 인한 이상치
- 즉, 분석결과의 왜곡 발생 가능성 존재
이상치의 종류
- 단변수 이상치(Univariate Outlier)
- 하나의 데이터 분포에서 발생하는 이상치를 의미
- 다변수 이상치(Multivariate Outlier)
- 복수의 연결된 데이터 분포공간에서 발생하는 이상치를 의미
이상치의 발생 원인
비자연적 이상치 발생(Artificial/Non-Natural Outlier)
- 입력 실수(Data Entry Error)
- 데이터 수집과정에서 발생하는 에러
- 입력의 실수 등을 지칭
- 측정 오류(Measurement Error)
- 데이터의 측정 중에 발생하는 에러
- 측정기 고장(이상 작동) 등을 지칭
- 실험 오류(Experimental Error)
- 실험과정 중 발생하는 에러
- 실험 환경에서 야기된 모든 문제점 지칭
- 의도적 이상치(Intentional Outlier)
- 자기 보고 측정(Self-reported Measure)에서 발생하는 에러
- 자기 보고 측정에서 발생하는 이상치(의도가 포함된)를 지칭
- 예) 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우
- 자료 처리 오류(Data Processing Error)
- 분석 시, 분석 전의 전처리에서 발생하는 에러
- 표본 오류(Sampling Error)
- 모집단에서 표본을 추출하는 과정에서 발생하는 에러
- 편향이 발생하는 경우를 지칭
자연적 이상치(Natural Outlier)
- 비자연적 이상치 이외의 발생하는 이상치
이상치의 문제점
- 이상치가 무작위성(Non-Randomly)을 갖고 분포되면 데이터의 정상성(Normality) 감소 초래하여 발생하는 문제점
- 기초(통계적) 분석 결과의 신뢰도 저하
- 평균, 분산 등에 영향을 줌
- 단, 중앙값은 영향이 적음
- 기초통계에 기반한 다른 고급 분석의 신뢰성 저하
- 검정/추정 등의 분석, 회귀분석 등에 영향을 줌
이상치의 탐지
- 고려사항
- 종속변수가 다변량(Univariate)인지, 다변량(Multivariate)인지
- 데이터의 분포가 모수적(Prametric)인지, 비모수적(Non-Parametric)인지
- 시각화(Visualization)를 통한 방법 (예: 비모수적, 단변량(2변량)의 경우)
- 상자 수염 그림(상자 그림,Box plot)
- 줄기-잎 그림(Stem and Leaf Diagram)
- 산점도 그림(Scatter Plot)
- Z-Score를 통한 방법 (예: 모수적 단변량 또는 저변량의 경우)
- 정규화를 통해 특정 한계점(threshold)을 벗어난 경우 이상치 판별
- 통상적으로 사용되는 한계점
- 1 표준편차 사이(전체의 68.27%)
- 2 표준편차 사이(전체의 95.45%)
- 3 표준편차 사이(전체의 99.73%)
- 그 외 용도에 따라 정밀도를 높여 제거
- 밀도기반 클러스터링 방법(DBSCAN)
- Density Based Spatial Clustering of Application with Noise의 약자
- 비모수적 다변량의 경우 군집간의 밀도 이용
- 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법
- 정의된 군집에서 먼거리에 있는 데이터는 이상치로 간주
- 고립 의사나무 방법(Isolation Forest)
- 비모수적 다변량의 경우 의사결정나무(Decision Tree) 이용
- 정상치의 단말 노드(Terminal node)보다 이상치의 노드에 이르는 길이(Path Length)가 더 짧은 성질을 이용하는 방법
참고
반응형