더북(TheBook)

Q | 지도 학습 방식으로 신경망 분류기를 훈련하는데 과대적합 문제가 발생했다고 가정해 보죠. 데이터를 추가하거나 개선하여 신경망의 과대적합을 줄이는 일반적인 방법에는 어떤 것이 있나요?

과대적합(overfitting)은 머신 러닝에서 흔한 문제로 모델이 훈련 데이터에 너무 잘 맞을 때 일어나는데, 데이터에 내재되어 있는 패턴 대신 잡음과 이상치(outlier)를 학습해 버립니다. 결과적으로 모델이 훈련 데이터에서는 잘 동작하지만 이전에 본 적 없는 데이터나 테스트 데이터에서는 성능이 저하됩니다. 과대적합을 막는 것이 이상적이지만 완전히 제거하기는 불가능할 때가 많습니다. 그 대신 과대적합을 가능한 한 많이 줄이거나 최소화하는 것을 목표로 삼습니다.

과대적합을 줄이는 데 가장 좋은 방법은 레이블이 있는 고품질 데이터를 많이 수집하는 것입니다. 하지만 레이블이 있는 데이터를 추가로 수집하는 것이 어렵다면 기존 데이터를 증강하거나 레이블이 없는 데이터로 사전 훈련을 수행할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.