더북(TheBook)

▲ 그림 6-5 편향-분산 트레이드오프

왼쪽 위 그래프는 편향이 높은 모델을 보여 줍니다. 이 모델은 훈련 정확도와 교차 검증 정확도가 모두 낮습니다. 훈련 데이터에 과소적합되었다는 것을 나타냅니다. 이 문제를 해결하는 일반적인 방법은 모델의 파라미터 개수를 늘리는 것입니다. 예를 들어 추가적인 특성을 수집하거나 만듭니다. 또는 서포트 벡터 머신(SVM)이나 로지스틱 회귀 분류기에서 규제 강도를 줄입니다.

오른쪽 위 그래프는 분산이 높은 모델을 보여 줍니다. 훈련 정확도와 교차 검증 정확도 사이에 큰 차이가 있다는 것을 나타냅니다. 과대적합 문제를 해결하려면 더 많은 훈련 데이터를 모으거나 모델 복잡도를 낮추거나 규제를 증가시킬 수 있습니다. 규제가 없는 모델에서는 특성 선택(4장)이나 특성 추출(5장)을 통해 특성 개수를 줄여 과대적합을 감소할 수 있습니다. 더 많은 훈련 데이터를 수집하는 것이 보통 과대적합의 가능성을 줄이지만 항상 도움이 되는 것은 아닙니다. 예를 들어 훈련 데이터에 잡음이 아주 많거나 모델이 이미 거의 최적화가 된 경우입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.