9 역주 확률적 가중치 평균은 이전의 가중치와 새로운 가중치에 대해 일종의 이동 평균을 계산하는 방식입니다. Pavel Izmailov et al. “Averaging Weights Leads to Wider Optima and Better Generalization” (2018), https://arxiv.org/abs/1803.05407
11 역주 스냅샷 앙상블은 훈련 도중 학습률 스케줄을 조정하여 찾은 여러 지역 최솟값의 가중치를 앙상블하는 방법입니다. Gao Huang et al. “Snapshot Ensembles: Train 1, get M for free” (2017), https://arxiv.org/abs/1704.00109
12 역주 배치 정규화와 층 정규화의 차이점은 부록 Q12를 참고하세요.