머신 러닝 교과서: 파이토치 편: 6.2.2 k-겹 교차 검증

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

비교적 작은 훈련 데이터셋으로 작업한다면 폴드 개수를 늘리는 것이 좋습니다. k 값이 증가하면 더 많은 훈련 데이터가 각 반복에 사용되고 모델 성능을 평균하여 일반화 성능을 추정할 때 더 낮은 편향을 만듭니다. k 값이 아주 크면 교차 검증 알고리즘의 실행 시간이 늘어나고 분산이 높은 추정을 만듭니다. 이는 훈련 폴드가 서로 많이 비슷해지기 때문입니다. 다른 말로 하면 대규모 데이터셋으로 작업할 때는 k = 5와 같은 작은 k 값을 선택해도 모델의 평균 성능을 정확하게 추정할 수 있습니다. 또한, 폴드마다 모델을 학습하고 평가하는 계산 비용을 줄일 수 있습니다.

Note ≡ LOOCV 방법

k-겹 교차 검증의 특별한 경우는 LOOCV(Leave-One-Out Cross-Validation) 방법입니다. LOOCV에서는 폴드 개수가 훈련 샘플 개수와 같습니다(k = n). 즉, 하나의 훈련 샘플이 각 반복에서 테스트로 사용됩니다. 이 방법은 아주 작은 데이터셋을 사용할 때 권장됩니다.⁴

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.