반응형
정규성 가정
- 분석을 진행하기 전에 데이터가 정규분포를 따르는지 검정하는 것
- 데이터 자체의 정규성을 확인하는 과정
- 통계적 검정, 회귀분석 등
중심극한정리(Central Limit Theorem)
- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론
- 표본분포의 평균
- 모집단의 모평균과 동일
- 표준편차
- 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것
정규성 검정 종류
- 샤피로-윌크 검정(Shaprio-Wilks Test)
- 표본수(n)가 2000개 미만인 데이터 셋에 적합
- 콜모고로프 스미르노프 검정(Kolmogorove-Smirnov Test)
- 표본수(n)가 2000개 초과인 데이터 셋에 적합
- Q-Q 플롯(Quantile-Quantile Plot)
- 데이터 셋이 정규분포를 따르는지 판단하는 시간적 분석 방법
- 표본수(n)가 소규모인 데이터 셋에 적합
잔차 진단
- 회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 실측치와 예측치의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며 잔차는 추세, 특정 패턴을 가지고 있지 않음
잔차의 정규성 진단
- 신뢰구간 추정과 가설검증을 정확하게 하기 위해 시각화 도표를 통해 정규분포와 잔차의 분포 비교
- 시각화 도표 : Q-Q Plot 등
잔차의 등분산성 진단
- 잔차의 분산이 특정 패턴이 없이 순서와 무관하게 일정한지 등분산성 진단
잔차의 독립성 진단
- 잔차의 독립성
- 자기상관(auto correlation)의 여부를 판단하는 것
- 시점 순서대로 그래프를 그리거나 더빈-왓슨 검정(Durbin-Watson Test)으로 패턴이 없다면 독립성 충족
- 독립성 위배 시, 시계열 분석(Time Series)을 통해 회귀분석 진행
참고
반응형