빅데이터 결과 해석 - 모형 평가 및 개선 - 적합도 검정(Goodness of fit Test)

반응형

 

적합도 검정 정의

  • 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법
  • 모집단의 분포를 정규분포로 가정하는 분석기법 적용될 시 데이터가 분포를 따르는가를 확인할 때 사용
    • 정규분포로 가정하는 분석기법 : t-Test, ANOVA, 회귀분석
  • 일반적인 적합도 검정 방법
    • 정규성 검정
  • 그 외 카이제곱 검정, 콜모고로프 스미르노프 검정

카이제곱 검정(Chi Squared Test)

  • 기대값과 관측값을 이용한 검정 방법
  • k개의 범주별로 나뉘어진 관측치들과 동일한 범주의 가정된 분포 사이의 적합도를 검정
  • 범주형 k가 나와야 할 횟수의 기댓값과 실제 나온 횟수의 차이를 이용하여 검정 통계량 산출
    • 기댓값 : m
    • 실제 나온 횟수 : x


콜모고로프 스미르노프 검정(K-S Test, Kolmogorov-Smirnov Test)

  • 관측된 표본분포와 가정된 분포사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정 방법
  • 연속형 데이터에도 적용 가능
  • 검정 절차
    • 관측된 자료의 크기 나열
    • 관측치들의 누적확률 계산
    • 가정된 분포의 누적확률과 비교하는 순서로 진행

참고

반응형