빅데이터 결과 해석 - 모형 평가 및 개선 - k-폴드 교차검증(k-fold Cross Validation), 홀드아웃 기법(Holdout Method)

반응형

 

k-폴드 교차 검증의 정의

  • 테스트 데이터셋에 과적합 되어버리는 결과를 방지하고자 나온 교차검증 기법
    • 고정된 훈련 데이터셋과 테스트 검증 데이터셋으로 반복적 평가를 진행하여 튜닝할 경우 과적합 가능성 존재
  • 장점
    • 모든 데이터 셋을 평가에 활용하여 과적합 방지
  • 단점
    • 반복횟수 증가에 따른 모델 훈련과 평가/검증 시간 오래 소요

k-폴드 교차 검증 절차

  1. 전체 데이터셋을 k개의 서브셋으로 분리
  2. k-1개를 훈련 데이터로 사용, 1개의 서브셋은 테스트 데이터로 사용
  3. 테스트를 중복없이 병행 진행한 후 평균 확인
  4. 최종적 모델 성능 평가

<k-폴드 교차검증 예시, 출처 데이터 사이언스 스쿨>


홀드아웃 기법(Holdout Method)

  • 훈련 데이터, 검증 데이터, 테스트 데이터를 일정 비율로 지정
  • 훈련 데이터로 학습
  • 훈련 데이터 내에 일정 부문 검증 데이터를 두어 학습과정에서 모델 성능을 높이는 검증 진행
  • 최종적으로 테스트 데이터를 통해 성능 평가

<홀드아웃 교차검증 기본 예시, 출처 vitalflux.com>

 

<과적합 방지를 위한 홀드아웃 교차검증 예시, 출처 vitalflux.com>


교차 검증 기법 종류

  • k-폴드(k-fold)
  • 홀드아웃(Holdout)
  • 리브-p-아웃(Leave-p-out)
  • 리브-원-아웃(Leave-one-out)
  • 계층별 k-폴드(Stratified k-fold)

참고

반응형