빅데이터 탐색 - 데이터 전처리 - 데이터 결측값 처리

결측치의 정의

완전 무작위 결측(MCAR)
- Missing Completely At Random의 약자
- 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
- 즉, 변수상에 발생한 결측이 다른 데이터에 영향 없음
무작위 결측(MAR)
- Missing At Random의 약자
- 변수상의 결측 데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않는 경우
- 즉, 결측이 특정 변수와 관련되어 발생하지만 그 결과에는 영향 없음
비 무작위 결측(NMAR)
- Not Missing At Random의 약자
- 어떤 변수의 결측 데이터가 MCAR 또는 MAR이 아닌 결측 데이터
- 결측변수값이 결측여부(이유)와 관련이 있는 경우
- 즉, 결측이 다른 변수와 연관 있음
예시) 나이별(X), 성별(Y), 체중(Z) 분석에 대한 모델링 가정
- 완전 무작위 결측(MCAR)
  - X,Y,Z 관계 없이 Z(체중)가 없는 경우
  - 데이터의 누락(응답 없음)
- 무작위 결측(MAR)
  - 여성(Y)은 체중 공개를 꺼려하는 경우, 체중(Z) 누락 가능성이 성별(Y)에 의존
  - 젊은(X) 여성(Y)의 경우 체중 공개를 꺼리는 경우가 더 높음, 체중(Z) 누락 가능성이 나이(X), 성별(Y)에 의존
- 비 무작위 결측(NMAR)
  - 무겁거나 가벼운 사람들은 체중(Z)를 공개할 가능성이 적음, 체중(Z) 누락 가능성이 Z값 자체에 관찰되지 않는 값에 의존

결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법
완전 분석(Completes Analysis)
- 불완전 자료는 완전하게 무시하고 분석 수행
- 분석의 용이성 보장
- 효율성 상실과 통계적 추론의 타당성에 문제 발생 가능성 존재
평균 대치법(Mean Imputation)
- 관측 또는 실험으로 얻어진 데이터의 평균을 결측치에 대치해서 사용
- 효율성 향상
- 통계량의 표준오차가 과소 추정되는 문제 발생 가능성 존재
- 비조건부 평균 대치법이라고도 부름
회귀 대치법(Regression Imputation)
- 회귀분석에 의한 예측치를 결측치에 대치해서 사용
- 조건부 평균 대치법이라고도 부름
단순확률 대치법(Single Stochastic Imputation)
- 평균 대치법에서 추정량 표준 오차의 과소 추정을 보완하는 대치법
- 확률추출에 의해 전체 데이터 중 무작위로 대치하는 방법
- Hot-deck 방법이라고도 부름
최근접 대치법(Nearest-Neighbor Imputation)
- 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리
- 정리된 자료에서 결측값 바로 이전의 응답을 결측치로 대치해서 사용
- 응답값이 여러 번 재사용될 문제 발생 가능성 존재

단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위한 방법
- 복수 개의 단순 대치를 통해 n개의 새로운 자료를 만들어 분석 시행
- 시행결과 얻어진 통계량에 대해 통계량 및 분산 결합을 통해 통합
다중 대치법 처리 절차
1. 대치단계(Imputation Step) : 복수의 대치에 의한 결측을 대치한 데이터 생성
2. 분석단계(Analysis Step) : 복수 개의 데이터셋에 대한 분석 시행
3. 결합단계(Combination Step) : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출