더북(TheBook)

2 과적합 이해하기

 

이제 과적합 문제가 무엇인지 알아보고 이를 어떻게 해결하는지 살펴보겠습니다.

과적합(overfitting)이란 모델이 학습 데이터셋 안에서는 일정 수준 이상의 예측 정확도를 보이지만, 새로운 데이터에 적용하면 잘 맞지 않는 것을 의미합니다.

그림 13-1의 그래프에서 빨간색 선을 보면 주어진 샘플에 정확히 맞게끔 그어져 있습니다. 하지만 이 선은 너무 주어진 샘플에만 최적화되어 있습니다. 지금 그어진 선을 새로운 데이터에 적용하면 정확한 분류가 어려워진다는 의미입니다.

 

그림 13-1 | 과적합이 일어난 경우(빨간색)와 학습이 제대로 이루어지지 않은 경우(초록색)

 

과적합은 층이 너무 많거나 변수가 복잡해서 발생하기도 하고 테스트셋과 학습셋이 중복될 때 생기기도 합니다. 특히 딥러닝은 학습 단계에서 입력층, 은닉층, 출력층의 노드들에 상당히 많은 변수가 투입됩니다. 따라서 딥러닝을 진행하는 동안 과적합에 빠지지 않게 늘 주의해야 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.