더북(TheBook)

6.2 k-겹 교차 검증을 사용한 모델 성능 평가

머신 러닝 모델을 구축하는 핵심 단계 중 하나는 처음 본 데이터에 대한 모델 성능을 추정하는 것입니다. 훈련 데이터셋에서 모델을 학습하고 같은 데이터로 새로운 데이터에 얼마나 잘 동작하는지 추정한다고 가정해 봅시다. 3장 ‘규제를 사용하여 과대적합 피하기’ 절에서 보았던 것처럼 모델이 너무 간단하면 과소적합(높은 편향)이 문제가 되고 너무 복잡하면 훈련 데이터에 과대적합(높은 분산)될 수 있습니다.

적절한 편향 -분산 트레이드오프를 찾으려면 모델을 주의 깊게 평가해야 합니다. 이 절에서는 보편적인 교차 검증 기법인 홀드아웃 교차 검증(holdout cross-validation)k-겹 교차 검증(k-fold cross-validation)을 배우겠습니다. 이런 방법들은 모델의 일반화 성능, 즉 처음 본 데이터에 모델이 얼마나 잘 동작하는지 신뢰할 만한 추정을 하도록 도와줍니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.