더북(TheBook)

과적합(Overfitting)

과적합은 주어진 데이터로부터 보장되는 것 이상으로 모델을 만들 때 발생한다.[16] 그림 9-24는 과적합의 예를 보여주는 그림이다.[17] 좌표 평면 위의 점들은 주어진 데이터를 뜻하며, 직선과 점선은 해당 점들을 설명하는 모델을 의미한다.

그림 9-24 과적합의 예
그림 9-24 과적합의 예

그림 9-24에서 직선으로 표현된 모델 1은 단순한 직선으로 데이터의 (X, Y)의 관계를 표현한 모델이다. 반면 점선으로 표현한 모델 2는 높은 차수의 다항식으로 데이터를 모델링한 예다. 단순히 주어진 데이터에 대한 정확도로만 따지면 모델 1이 모델 2에 비해 정확하지 않다. 그러나 데이터의 분포를 보건데 복잡한 곡선으로부터 나온 데이터가 아니라 단순 선형 관계로부터 나온 데이터일 가능성이 높아 보인다. 즉, 모델 1이 모델 2에 비해 좀 더 일반적인 모델일 가능성이 있고, 따라서 새로운 점이 위치할 만한 좌표를 더 잘 표현하는 모델일 수 있다. 반면 모델 2는 데이터를 관찰하면서 끼어든 노이즈를 모델에 반영하느라 관찰 데이터 자체는 충실히 표현하지만 데이터에 내제된 일반적인 구조를 표현하는 데는 실패했다.

이러한 가정이 참이라고 할 때 모델 2에는 과적합이 발생했다고 말한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.