빅데이터 탐색 - 데이터 전처리 - 데이터 결측값 처리

반응형

 

결측치의 정의

  • 결측값, Missing Data, 손실 데이터라고도 부름
  • 데이터가 없음을 의미
  • 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생

결측치 처리 시 발생 가능 문제점

  • 결측치 임의 제거 시 발생 가능 문제점
    • 분석 데이터의 직접 손실로 분석에 필요한 데이터 수집에 실패할 가능성 발생
  • 결측치 임의 대체 시 발생 가능 문제점
    • 데이터 편향(bias)이 발생, 분석 결과의 신뢰성 저하 가능성 존재
  • 임의 제거, 대체 방법을 사용함에 있어 상기의 문제를 피하는 데이터에 기반한 방법으로 처리 진행

결측 데이터의 종류

  • 완전 무작위 결측(MCAR)
    • Missing Completely At Random의 약자
    • 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
    • 즉, 변수상에 발생한 결측이 다른 데이터에 영향 없음
  • 무작위 결측(MAR)
    • Missing At Random의 약자
    • 변수상의 결측 데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않는 경우
    • 즉, 결측이 특정 변수와 관련되어 발생하지만 그 결과에는 영향 없음
  • 비 무작위 결측(NMAR)
    • Not Missing At Random의 약자
    • 어떤 변수의 결측 데이터가 MCAR 또는 MAR이 아닌 결측 데이터
    • 결측변수값이 결측여부(이유)와 관련이 있는 경우
    • 즉, 결측이 다른 변수와 연관 있음
  • 예시) 나이별(X), 성별(Y), 체중(Z) 분석에 대한 모델링 가정
    • 완전 무작위 결측(MCAR)
      • X,Y,Z 관계 없이 Z(체중)가 없는 경우
      • 데이터의 누락(응답 없음)
    • 무작위 결측(MAR)
      • 여성(Y)은 체중 공개를 꺼려하는 경우, 체중(Z) 누락 가능성이 성별(Y)에 의존
      • 젊은(X) 여성(Y)의 경우 체중 공개를 꺼리는 경우가 더 높음, 체중(Z) 누락 가능성이 나이(X), 성별(Y)에 의존
    • 비 무작위 결측(NMAR)
      • 무겁거나 가벼운 사람들은 체중(Z)를 공개할 가능성이 적음, 체중(Z) 누락 가능성이 Z값 자체에 관찰되지 않는 값에 의존

결측값 유형의 분석 및 대치

  • 결측치가 어떤 유형으로 분류되는지 분석된 결과에 따라 결측치 처리 방법의 선택 필요
  • 일반적으로 결측/무응답을 가진 자료를 분석할 때는 완전 무작위 결측(MCAR) 처리
  • 불완전한 자료는 무시하고 완전히 관측된 자료만을 표준적 분석 시행
  • 결측치가 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제 고려

단순 대치법(Simple Imputation)

  • 결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법
  • 완전 분석(Completes Analysis)
    • 불완전 자료는 완전하게 무시하고 분석 수행
    • 분석의 용이성 보장
    • 효율성 상실과 통계적 추론의 타당성에 문제 발생 가능성 존재
  • 평균 대치법(Mean Imputation)
    • 관측 또는 실험으로 얻어진 데이터의 평균을 결측치에 대치해서 사용
    • 효율성 향상
    • 통계량의 표준오차가 과소 추정되는 문제 발생 가능성 존재
    • 비조건부 평균 대치법이라고도 부름
  • 회귀 대치법(Regression Imputation)
    • 회귀분석에 의한 예측치를 결측치에 대치해서 사용
    • 조건부 평균 대치법이라고도 부름
  • 단순확률 대치법(Single Stochastic Imputation)
    • 평균 대치법에서 추정량 표준 오차의 과소 추정을 보완하는 대치법
    • 확률추출에 의해 전체 데이터 중 무작위로 대치하는 방법
    • Hot-deck 방법이라고도 부름
  • 최근접 대치법(Nearest-Neighbor Imputation)
    • 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리
    • 정리된 자료에서 결측값 바로 이전의 응답을 결측치로 대치해서 사용
    • 응답값이 여러 번 재사용될 문제 발생 가능성 존재

다중 대치법(Multiple Imputation)

  • 단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위한 방법
    • 복수 개의 단순 대치를 통해 n개의 새로운 자료를 만들어 분석 시행
    • 시행결과 얻어진 통계량에 대해 통계량 및 분산 결합을 통해 통합
  • 다중 대치법 처리 절차
    1. 대치단계(Imputation Step) : 복수의 대치에 의한 결측을 대치한 데이터 생성
    2. 분석단계(Analysis Step) : 복수 개의 데이터셋에 대한 분석 시행
    3. 결합단계(Combination Step) : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출

참고

 

반응형