반응형
결측치의 정의
- 결측값, Missing Data, 손실 데이터라고도 부름
- 데이터가 없음을 의미
- 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생
결측치 처리 시 발생 가능 문제점
- 결측치 임의 제거 시 발생 가능 문제점
- 분석 데이터의 직접 손실로 분석에 필요한 데이터 수집에 실패할 가능성 발생
- 결측치 임의 대체 시 발생 가능 문제점
- 데이터 편향(bias)이 발생, 분석 결과의 신뢰성 저하 가능성 존재
- 임의 제거, 대체 방법을 사용함에 있어 상기의 문제를 피하는 데이터에 기반한 방법으로 처리 진행
결측 데이터의 종류
- 완전 무작위 결측(MCAR)
- Missing Completely At Random의 약자
- 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
- 즉, 변수상에 발생한 결측이 다른 데이터에 영향 없음
- 무작위 결측(MAR)
- Missing At Random의 약자
- 변수상의 결측 데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않는 경우
- 즉, 결측이 특정 변수와 관련되어 발생하지만 그 결과에는 영향 없음
- 비 무작위 결측(NMAR)
- Not Missing At Random의 약자
- 어떤 변수의 결측 데이터가 MCAR 또는 MAR이 아닌 결측 데이터
- 결측변수값이 결측여부(이유)와 관련이 있는 경우
- 즉, 결측이 다른 변수와 연관 있음
- 예시) 나이별(X), 성별(Y), 체중(Z) 분석에 대한 모델링 가정
- 완전 무작위 결측(MCAR)
- X,Y,Z 관계 없이 Z(체중)가 없는 경우
- 데이터의 누락(응답 없음)
- 무작위 결측(MAR)
- 여성(Y)은 체중 공개를 꺼려하는 경우, 체중(Z) 누락 가능성이 성별(Y)에 의존
- 젊은(X) 여성(Y)의 경우 체중 공개를 꺼리는 경우가 더 높음, 체중(Z) 누락 가능성이 나이(X), 성별(Y)에 의존
- 비 무작위 결측(NMAR)
- 무겁거나 가벼운 사람들은 체중(Z)를 공개할 가능성이 적음, 체중(Z) 누락 가능성이 Z값 자체에 관찰되지 않는 값에 의존
- 완전 무작위 결측(MCAR)
결측값 유형의 분석 및 대치
- 결측치가 어떤 유형으로 분류되는지 분석된 결과에 따라 결측치 처리 방법의 선택 필요
- 일반적으로 결측/무응답을 가진 자료를 분석할 때는 완전 무작위 결측(MCAR) 처리
- 불완전한 자료는 무시하고 완전히 관측된 자료만을 표준적 분석 시행
- 결측치가 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제 고려
단순 대치법(Simple Imputation)
- 결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법
- 완전 분석(Completes Analysis)
- 불완전 자료는 완전하게 무시하고 분석 수행
- 분석의 용이성 보장
- 효율성 상실과 통계적 추론의 타당성에 문제 발생 가능성 존재
- 평균 대치법(Mean Imputation)
- 관측 또는 실험으로 얻어진 데이터의 평균을 결측치에 대치해서 사용
- 효율성 향상
- 통계량의 표준오차가 과소 추정되는 문제 발생 가능성 존재
- 비조건부 평균 대치법이라고도 부름
- 회귀 대치법(Regression Imputation)
- 회귀분석에 의한 예측치를 결측치에 대치해서 사용
- 조건부 평균 대치법이라고도 부름
- 단순확률 대치법(Single Stochastic Imputation)
- 평균 대치법에서 추정량 표준 오차의 과소 추정을 보완하는 대치법
- 확률추출에 의해 전체 데이터 중 무작위로 대치하는 방법
- Hot-deck 방법이라고도 부름
- 최근접 대치법(Nearest-Neighbor Imputation)
- 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리
- 정리된 자료에서 결측값 바로 이전의 응답을 결측치로 대치해서 사용
- 응답값이 여러 번 재사용될 문제 발생 가능성 존재
다중 대치법(Multiple Imputation)
- 단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위한 방법
- 복수 개의 단순 대치를 통해 n개의 새로운 자료를 만들어 분석 시행
- 시행결과 얻어진 통계량에 대해 통계량 및 분산 결합을 통해 통합
- 다중 대치법 처리 절차
- 대치단계(Imputation Step) : 복수의 대치에 의한 결측을 대치한 데이터 생성
- 분석단계(Analysis Step) : 복수 개의 데이터셋에 대한 분석 시행
- 결합단계(Combination Step) : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출
참고
반응형