머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.1 평가와 과유불급

다시 과대평가 문제로 돌아오겠습니다. 이 문제에서 어떻게 우리 스스로를 보호할 수 있을까요? 가장 근본적인 대책은 시험 문제 자체를 외우지 않는 것입니다. 3.3절에서 분류 문제를 살펴볼 때 이 아이디어를 소개했습니다. 시험 문제를 보지 않게 하려고 다음 세 단계를 사용합니다.

• 1단계: 전체 데이터를 훈련과 테스트 데이터셋으로 분리합니다.

• 2단계: 훈련 데이터로 학습합니다.

• 3단계: 테스트 데이터로 성능을 평가합니다.

모든 데이터를 사용해서 훈련하지 않으면 마치 직관에 반하는 것처럼 보입니다. 어떤 사람들은 “더 많은 데이터로 훈련하면 더 좋은 결과를 얻을 수 있지 않나요?”라고 할지도 모르겠습니다. 일리가 있습니다. 더 많은 데이터를 사용하면 학습 모델이 더 나은 추정을 할 수도 있습니다. 학습 모델이 더 나은 파라미터를 가지게 되는 것이죠. 그런데 모든 데이터로 훈련하면 정말 큰 문제가 생깁니다. 데이터를 더 많이 사용한 모델이 그렇지 않은 모델보다 더 우수하다는 것을 어떻게 알 수 있을까요? 두 모델을 어떤 방식으로 평가해야 하는데, 우리가 가진 모든 데이터로 훈련과 평가를 하게 되면 학습 시스템의 실전 성능을 과대평가하게 될 가능성이 높습니다. 이는 마치 작년 수학 시험의 사지선다 답안을 외워 두었는데, 올해는 주관식 문제가 나온 것과 같습니다. 정말 그러한 상황이 닥친다면 저도 거품을 물 것 같네요.

이 장에서는 회귀와 분류 모델에 광범위하게 사용하는 일반적인 평가 기법을 자세히 알아볼 것입니다. 이 기법 중 일부는 우리가 시험 문제를 외우지 않도록 도와줄 것입니다. 나머지는 학습 모델들을 넓은 관점에서 비교하고 대조하는 데 사용합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.