빅데이터 결과 해석 - 모형 평가 및 개선 - 분석 모델 진단

반응형

 

정규성 가정

  • 분석을 진행하기 전에 데이터가 정규분포를 따르는지 검정하는 것
  • 데이터 자체의 정규성을 확인하는 과정
    • 통계적 검정, 회귀분석 등

중심극한정리(Central Limit Theorem)

  • 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론
  • 표본분포의 평균
    • 모집단의 모평균과 동일
  • 표준편차
    • 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것

정규성 검정 종류

  • 샤피로-윌크 검정(Shaprio-Wilks Test)
    • 표본수(n)가 2000개 미만인 데이터 셋에 적합
  • 콜모고로프 스미르노프 검정(Kolmogorove-Smirnov Test)
    • 표본수(n)가 2000개 초과인 데이터 셋에 적합
  • Q-Q 플롯(Quantile-Quantile Plot)
    • 데이터 셋이 정규분포를 따르는지 판단하는 시간적 분석 방법
    • 표본수(n)가 소규모인 데이터 셋에 적합

잔차 진단

  • 회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 실측치와 예측치의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며 잔차는 추세, 특정 패턴을 가지고 있지 않음

잔차의 정규성 진단

  • 신뢰구간 추정과 가설검증을 정확하게 하기 위해 시각화 도표를 통해 정규분포와 잔차의 분포 비교
    • 시각화 도표 : Q-Q Plot 등

잔차의 등분산성 진단

  • 잔차의 분산이 특정 패턴이 없이 순서와 무관하게 일정한지 등분산성 진단

잔차의 독립성 진단

  • 잔차의 독립성
    • 자기상관(auto correlation)의 여부를 판단하는 것
  • 시점 순서대로 그래프를 그리거나 더빈-왓슨 검정(Durbin-Watson Test)으로 패턴이 없다면 독립성 충족
  • 독립성 위배 시, 시계열 분석(Time Series)을 통해 회귀분석 진행

참고

반응형