5.1.3 사전 훈련
2장에서 소개했듯이 자기 지도 학습에서는 레이블이 없는 대규모 데이터셋을 활용해 신경망을 사전 훈련합니다. 타깃 데이터셋이 작을 때 과대적합을 줄이는 데도 도움이 될 수 있습니다.
자기 지도 학습의 대안으로 레이블이 있는 대규모 데이터셋을 기반으로 하는 전통적인 전이 학습도 하나의 옵션입니다. 레이블을 가진 데이터셋이 타깃 도메인과 밀접하게 관련이 있을 때 전이 학습의 효과가 최대가 됩니다. 예를 들어 새의 종류를 분류하는 모델을 훈련한다면 일반적인 대규모 동물 분류 데이터셋에서 네트워크를 사전 훈련할 수 있습니다. 하지만 이런 대규모 동물 분류 데이터셋이 없다면 비교적 광범위한 이미지넷 데이터셋에서 사전 훈련할 수도 있습니다.
데이터셋이 너무 작은 경우, 예를 들어 클래스마다 레이블이 있는 데이터가 몇 개만 있는 경우에는 지도 학습이 적합하지 않습니다. 레이블을 가진 데이터를 추가로 얻는 것이 어려운 상황에서 분류기를 사용해야 한다면 퓨-샷 학습을 고려할 수 있습니다.