6.1.2 작은 모델
고전적인 편향-분산(bias-variance) 이론에 따르면 모델 크기를 줄이면 과대적합을 감소시킬 수 있습니다. 이 이론의 이면에 있는 직관은 모델 파라미터의 개수가 적을수록 데이터에 있는 잡음을 기억하거나 과대적합될 능력이 줄어든다는 것입니다. 이어지는 문단은 모델의 파라미터를 삭제하는 가지치기, 작은 모델로 지식을 전달하는 지식 정제(knowledge distillation)3와 같은 모델 크기 감소 방법을 설명합니다.
하이퍼파라미터 튜닝 과정을 통해 층의 개수를 줄이거나 층의 너비4를 감소하는 것 외에 작은 모델을 만드는 또 다른 방법은 반복적 가지치기(iterative pruning)입니다. 먼저 원본 데이터셋에서 좋은 성능을 달성하도록 큰 모델을 훈련합니다. 그다음 반복적으로 모델의 파라미터를 삭제하고 원본 모델의 예측 성능을 유지하도록 모델을 재훈련합니다(4장에서 소개한 로터리 티켓 가설이 반복적 가지치기를 사용합니다).