fit, fit_transform, transform 함수 사용법과 차이점

 

# fit 함수

  • 인공지능 모델에게 데이터를 학습시킬 때 사용

 

# fit_transform() / transform() 함수

  • 스케일러나 인코더 사용시 호출
    (인공지능 모델을 학습시키기 위해 데이터 전처리)
  • transform()
    • fit의 학습시킨 데이터를 실제로 적용하는 함수
  • fit_transform()
    • fit으로 인공지능 모델에게 데이터를 학습시키고, transform으로 실제 적용하는 함수

 

# fit_transform - training data(학습용 데이터)

  • training data에 사용
  • 모델은 training data에 있는 평균과 분산을 학습
  • 학습된 파라미터는 test data를 스케일하는데 사용

 

# transform - test data(테스트용 데이터)

  • training data로부터 학습된 평균과 분산 값을 test data에 적용하기 위해 사용
  • 주의 : fit_transform을 test data에 있는 평균과 분산을 학습
    • test data에 사용하면 새로운 평균 값과 분산 값을 얻게되어 training data와 동일해짐
    • test data가 training data가 되어버리면 모델의 성능 확인 불가

 

결론 : test data에 fit_transform을 사용하면 인공지능의 성능 평가를 할 수 없기 때문에 절대 사용하면 안된다!