이론/빅데이터 분석
빅데이터 탐색 - 데이터 전처리 - 변수 선택
luvris2
2023. 3. 4. 19:55
반응형
변수별 모델 분류
- 전체 모델(FM, Full Model)
- 모든 독립변수를 사용한 모델
- 축소 모델(RM, Reduced Model)
- 전체 모델에서 사용된 변수의 개수를 줄여서 얻은 모델
- 영 모델(NM, Null Model)
- 독립변수가 하나도 없는 모델
변수 선택 방법
전진 선택법(Forward Selection)
- 가장 단순한 회귀모델에서 출발하여 가장 중요한 변수들을 고르며 차례대로 모델에 포함시키는 방법
- 영 모델에서 시작
- 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석 모델에 포함
- 부분 F 검정(F test)을 통해 유의성 검증 시행
- 유의한 경우 : 가장 큰 F 통계량을 가지는 모델 선택
- 유의하지 않은 경우 : 변수 선택 없이 과정 중단
- 한번 추가된 변수는 제거하지 않는 것이 원칙
후진 선택법(Backward Selection)
- 후진 소거법(Backward Elimination)이라고도 부름
- 전진 선택법의 반대의 개념, 모든 변수가 포함된 모델에서 설명력이 떨어지는 변수를 제거하는 방법
- 전체 모델에서 시작
- 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석 모델에서 제외
- 부분 F 검정(F test)을 통해 유의성 검증 시행
- 유의한 경우 : 변수 제거 없이 과정 중단
- 유의하지 않은 경우 : 변수 제거
- 한번 제거된 변수는 추가하지 않는 것이 원칙
단계적 선택법(Stepwise Selection)
- 전진 선택법과 후진 선택법의 보안방법
- 전진 선택법을 통해 가장 유의한 변수를 모델에 포함
- 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수 제거
- 제거된 변수는 다시 모델에 포함하지 않는 것이 원칙
- 유의한 설명변수가 존재하지 않을 때까지 과정 반복
참고
반응형