SECTION 6.5 참고
• L2 규제와 가중치 감쇠의 차이: Guodong Zhang et al., “Three Mechanisms of Weight Decay Regularization” (2018), https://arxiv.org/abs/1810.12281
• 가지치기와 지식 정제가 작은 모델을 만들기 때문에 일반화 성능을 향상시킬 수 있다는 연구 결과: Geoffrey Hinton, Oriol Vinyals, and Jeff Dean, “Distilling the Knowledge in a Neural Network” (2015), https://arxiv.org/abs/1503.02531