더북(TheBook)

테스트 오차는 단계별로 크게 달라집니다. 훈련에 전체 데이터의 30% 정도만 사용하면 테스트 정확도가 30% 정도로 매우 낮습니다. 훈련 데이터의 분량을 40~50%로 올리면 테스트 성능이 70%까지 올라갑니다. 점점 나아지고 있군요. 훈련에 사용하는 데이터를 70%에서 100%까지 끌어 올리면 테스트 성능이 90%대까지 올라갑니다. 훈련 관점에서는 어떨까요? 왜 훈련 성능이 떨어질까요? 훈련 데이터 분량 60%까지는 5-NN 모델이 모든 훈련 데이터의 특징을 파악할 수 있을 정도로 데이터의 패턴이 단순한 듯합니다. 분량이 더 늘어나게 되면 훈련 성능이 조금씩 떨어지기 시작합니다. 정말 중요한 점은 테스트 성능이라는 것을 꼭 기억하세요.

중요한 점이 한 가지 더 있습니다. 앞서 언급한 퍼센트를 적절한 훈련에 필요한 사례의 최소 개수로 바꾸어서 생각할 수 있습니다. 예를 들어 꽤 좋은 5-CV 테스트 결과를 얻기 위해서는 테스트 폴드를 제외한 훈련 폴드가 모두 필요했습니다. 즉, 훈련을 위해 전체 데이터셋의 약 80%가 필요했다는 의미입니다. 결과가 좋지 않았다면 CV 분리를 더 많이 해서 훈련 데이터를 늘리는 것을 고려해 보세요. 100개의 사례로 구성된 데이터셋에서 5-CV의 훈련 데이터 크기는 80개이지만, 10-CV의 훈련 데이터는 90개가 됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.