머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.7.2 복잡도 곡선

퀴즈를 하나 내겠습니다. 왜 1-NN으로 학습 정확도 100%를 찍을 수 있을까요? 그것이 좋을까요? 무엇이 좋은 성능을 의미할까요? 10-NN에서 가장 좋은 검증 성능이 곡선의 중간쯤 나온 것은 무슨 의미일까요? 잠시 책을 덮고 생각해 보세요.

1-NN에서 학습 데이터는 자기 자신의 타깃 레이블로 분류됩니다. 자기 스스로가 가장 가까운 이웃이니까요. 과대적합의 극단적인 경우입니다. 노이즈가 거의 없다면 이것도 괜찮을지 모릅니다. 고객에게 납품하는 최종 시스템으로는 10-NN이 더 적합해 보입니다. 10-NN은 과소적합(편향)과 과대적합(분산)의 적절한 중간점을 찾은 듯합니다. 이제 홀드아웃 테스트 세트로 마지막 검증을 하면 됩니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.