빅데이터 탐색 - 데이터 전처리 - 변수 선택

반응형

 

변수별 모델 분류

  • 전체 모델(FM, Full Model)
    • 모든 독립변수를 사용한 모델
  • 축소 모델(RM, Reduced Model)
    • 전체 모델에서 사용된 변수의 개수를 줄여서 얻은 모델
  • 영 모델(NM, Null Model)
    • 독립변수가 하나도 없는 모델

변수 선택 방법

전진 선택법(Forward Selection)

  • 가장 단순한 회귀모델에서 출발하여 가장 중요한 변수들을 고르며 차례대로 모델에 포함시키는 방법
  • 영 모델에서 시작
  • 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석 모델에 포함
  • 부분 F 검정(F test)을 통해 유의성 검증 시행
    • 유의한 경우 : 가장 큰 F 통계량을 가지는 모델 선택
    • 유의하지 않은 경우 : 변수 선택 없이 과정 중단
  • 한번 추가된 변수는 제거하지 않는 것이 원칙

후진 선택법(Backward Selection)

  • 후진 소거법(Backward Elimination)이라고도 부름
  • 전진 선택법의 반대의 개념, 모든 변수가 포함된 모델에서 설명력이 떨어지는 변수를 제거하는 방법
  • 전체 모델에서 시작
  • 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석 모델에서 제외
  • 부분 F 검정(F test)을 통해 유의성 검증 시행
    • 유의한 경우 : 변수 제거 없이 과정 중단
    • 유의하지 않은 경우 : 변수 제거
  • 한번 제거된 변수는 추가하지 않는 것이 원칙

단계적 선택법(Stepwise Selection)

  • 전진 선택법과 후진 선택법의 보안방법
  • 전진 선택법을 통해 가장 유의한 변수를 모델에 포함
  • 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수 제거
  • 제거된 변수는 다시 모델에 포함하지 않는 것이 원칙
  • 유의한 설명변수가 존재하지 않을 때까지 과정 반복

참고

반응형