4.5 유용한 특성 선택
모델이 테스트 데이터셋보다 훈련 데이터셋에서 성능이 훨씬 높다면 과대적합(overfitting)에 대한 강력한 신호입니다. 3장에서 언급했듯이 과대적합은 모델 파라미터가 훈련 데이터셋에 있는 특정 샘플들에 대해 너무 가깝게 맞추어져 있다는 의미입니다. 새로운 데이터에는 잘 일반화하지 못하기 때문에 모델 분산이 크다고 말합니다. 과대적합의 이유는 주어진 훈련 데이터에 비해 모델이 너무 복잡하기 때문입니다. 일반화 오차를 감소시키기 위해 많이 사용하는 방법은 다음과 같습니다.
• 더 많은 훈련 데이터를 모읍니다.
• 규제를 통해 복잡도를 제한합니다.
• 파라미터 개수가 적은 간단한 모델을 선택합니다.
• 데이터 차원을 줄입니다.
훈련 데이터를 더 모으는 것이 불가능할 때가 많습니다. 6장에서 더 많은 훈련 데이터가 도움이 되는지 확인하는 좋은 방법을 배우겠습니다. 다음 절에서는 규제와 차원 축소를 사용하여 과대적합을 줄이는 방법을 살펴보겠습니다. 특성 선택을 통해 차원을 축소하면 데이터에 학습되는 파라미터 개수가 줄어들기 때문에 더 간단한 모델을 만듭니다. 그다음 5장에서 추가적인 특성 추출 기법을 살펴보겠습니다.