더북(TheBook)

5.1.1 추가 데이터 수집

과대적합을 줄이는 가장 좋은 방법 중 하나는 더 많은 (고품질) 데이터를 모으는 것입니다. 학습 곡선(learning curve)을 그려 보면 추가된 데이터가 주어진 모델에 도움이 되는지 알 수 있습니다. 학습 곡선을 만들기 위해 모델을 여러 크기(10%, 20% 등)의 훈련 세트에서 훈련하고 동일 크기의 검증 세트(validation set)1나 테스트 세트에서 평가합니다. 그림 5-1의 그래프를 보면 훈련 세트 크기가 증가할수록 검증 정확도가 증가합니다. 이는 더 많은 데이터를 수집하여 모델의 성능을 향상할 수 있다는 의미입니다.

▲ 그림 5-1 여러 크기의 훈련 세트에서 훈련한 모델의 학습 곡선

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.