6.1.3 작은 모델에 대한 주의 사항
가지치기와 지식 정제가 모델의 일반화 성능을 향상시킬 수도 있지만 이런 기법은 과대적합을 줄이는 대표적이거나 효과적인 방법은 아닙니다.
초기 연구 결과에 따르면 작은 모델 크기로 인해 가지치기와 지식 정제가 일반화 성능을 향상시킬 수 있습니다. 하지만 이중 하강(double descent)과 그로킹(grokking) 같은 현상에 대한 최근 연구에 따르면 파라미터가 많은 대용량 모델이 과대적합 지점을 지나 훈련되면 일반화 성능이 향상됩니다. 이중 하강은 적은 파라미터나 아주 많은 파라미터를 가진 모델은 좋은 일반화 성능을 내지만, 훈련 데이터 샘플 개수와 동일한 개수의 파라미터를 가진 모델은 일반화 성능이 나쁜 현상을 말합니다. 그로킹은 데이터셋의 크기가 감소함에 따라 최적화 필요성이 증가하고, 일반화 성능이 과대적합 지점을 지나 향상될 수 있음을 보여 줍니다.