더북(TheBook)

 

SECTION 6.5 참고

L2 규제와 가중치 감쇠의 차이: Guodong Zhang et al., “Three Mechanisms of Weight Decay Regularization” (2018), https://arxiv.org/abs/1810.12281

가지치기와 지식 정제가 작은 모델을 만들기 때문에 일반화 성능을 향상시킬 수 있다는 연구 결과: Geoffrey Hinton, Oriol Vinyals, and Jeff Dean, “Distilling the Knowledge in a Neural Network” (2015), https://arxiv.org/abs/1503.02531

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.