더북(TheBook)

작은 모델을 얻기 위한 또 다른 방법은 지식 정제입니다. 이 방법 이면의 아이디어는 크고 복잡한 모델(티처(teacher))의 지식을 작은 모델(스튜던트(student))에게 전달하는 것입니다. 이상적으로 스튜던트는 티처와 같은 예측 정확도를 달성하지만 크기가 작기 때문에 더 효율적입니다. 부가적으로 작은 스튜던트는 큰 티처 모델보다 과대적합될 가능성이 낮습니다.

그림 6-2는 지식 정제 과정을 보여 줍니다. 먼저 티처가 데이터셋에 있는 샘플을 분류하기 위해 예측 점수와 정답 클래스 레이블 사이의 크로스 엔트로피(cross-entropy) 손실을 사용해 일반적인 지도 학습 방식으로 훈련됩니다. 작은 스튜던트 네트워크가 동일한 데이터셋에서 훈련되지만 훈련 목표는 (a) 출력과 클래스 레이블 사이의 크로스 엔트로피와 (b) 스튜던트의 출력과 티처의 출력 사이의 차이를 최소화하는 것입니다((b)의 경우 정보량 측면에서 한 분포가 다른 분포와 얼마나 다른지 계산하여 두 확률 분포의 차이를 정량화하는 쿨백 라이블러 발산(Kullback-Leibler divergence)을 사용합니다).5

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.