머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.5.5 LOOCV 교차 검증

RMSE가 상당히 높은 세 개의 데이터가 눈에 띕니다. 그 아래에 있는 오차가 높은 데이터(RMSE > 100) 20여 개가 뾰족한 봉우리를 형성하고 있네요. 이는 약 20개의 데이터가 모델 예측에 저항하고 있다는 것을 의미합니다. 이들이 어떤 공통점을 가지고 있는지 분석해 보면 좋겠군요.

LOOCV는 결정론적인 평가 방법입니다. 매번 LOOCV를 실행할 때 모든 것을 같은 방식으로 사용하기 때문에 선택에 무작위성이 개입하지 않습니다. 이러한 결정론적인 특성은 학습 알고리즘의 정확성을 비교하고 테스트할 때 유용합니다. 그러나 사례 개수만큼 모델을 학습해야 하기 때문에 LOOCV는 비용이 매우 많이 듭니다. 어떤 모델은 수학적인 트릭을 이용해서 재학습에 드는 비용을 크게 낮추기도 합니다. 평가 관점에서 수많은 훈련 데이터를 이용하는 장점은 LOOCV가 실제 오차에 대해 상대적으로 비편향된 추정을 할 수 있다는 것입니다. 그러나 예측을 할 때 하나의 사례만 사용하기 때문에 분산이 크다는 단점이 있습니다. 그렇기 때문에 일반적으로 LOOCV보다는 5-폴드나 10-폴드 CV를 추천합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.