더북(TheBook)

일부 선택된 특성은 매우 상관관계가 높아 어느 정도 중복된 정보를 가질 수 있습니다. 이때는 차원 축소 기법을 사용하여 특성을 저차원 부분 공간으로 압축합니다. 특성 공간의 차원을 축소하면 저장 공간이 덜 필요하고 학습 알고리즘을 더 빨리 실행할 수 있습니다. 어떤 경우에는 차원 축소가 모델의 예측 성능을 높이기도 합니다. 데이터셋에 관련 없는 특성(또는 잡음)이 매우 많을 경우, 즉 신호 대 잡음비(Signal-to-Noise Ratio, SNR)10가 낮은 경우입니다.

머신 러닝 알고리즘이 훈련 데이터셋에서 잘 작동하고 새로운 데이터에서도 잘 일반화되는지 확인하려면 데이터셋을 랜덤하게 훈련 데이터셋과 테스트 데이터셋으로 나누어야 합니다. 훈련 데이터셋에서 머신 러닝 모델을 훈련하고 최적화합니다. 테스트 데이터셋은 별도로 보관하고 최종 모델을 평가하는 맨 마지막에 사용합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.