• 과대적합 지점을 지나서 일반화 성능이 향상될 수 있는 그로킹 현상: Alethea Power et al., “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” (2022), https://arxiv.org/abs/2201.02177
• 가지치기로 인한 과대적합 감소가 부분적으로 훈련 과정 개선 때문임을 보여 주는 최근 연구: Tian Jin et al., “Pruning’s Effect on Generalization Through the Lens of Training and Regularization” (2022), https://arxiv.org/abs/2210.13738
• 드롭아웃을 규제 기법으로 언급했지만 여러 네트워크의 가중 기하 평균(weighted geometric mean)을 근사하는 앙상블 방법으로 생각할 수 있다는 논문: Pierre Baldi and Peter J. Sadowski, “Understanding Dropout” (2013), https://proceedings.neurips.cc/paper/2013/hash/71f6278d140af599e06ad9bf1ba03cb0-Abstract.html