더북(TheBook)

1.4.3 모델을 평가하고 본 적 없는 샘플로 예측

훈련 데이터셋에서 최적의 모델을 선택한 후에는 테스트 데이터셋을 사용하여 이전에 본 적이 없는 데이터에서 얼마나 성능을 내는지 예측하여 일반화 오차를 예상합니다. 이 성능에 만족한다면 이 모델을 사용하여 미래의 새로운 데이터를 예측할 수 있습니다. 이전에 언급한 특성 스케일 조정과 차원 축소 같은 단계에서 사용한 파라미터는 훈련 데이터셋만 사용하여 얻은 것임을 주목해야 합니다. 나중에 동일한 파라미터를 테스트 데이터셋은 물론 새로운 모든 샘플을 변환하는 데 사용합니다. 그렇지 않으면 테스트 데이터셋에서 측정한 성능은 과도하게 낙관적인 결과가 됩니다.14

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.