더북(TheBook)

 

5k겹 교차 검증

 

테스트를 더 정확하게 설정할수록 세상으로 나왔을 때 더 잘 작동한다고 할 수 있습니다. 하지만 문제는 데이터가 그만큼 충분하지 않을 때 발생합니다. 딥러닝 혹은 머신러닝 작업을 할 때 늘 어려운 문제 중 하나는 알고리즘을 충분히 테스트하였어도 데이터가 충분치 않으면 좋은 결과를 내기가 어렵다는 것입니다. 앞서 가지고 있는 데이터의 약 70%를 학습셋으로 써야 했으므로 테스트셋은 겨우 전체 데이터의 30%에 그쳤습니다. 이 정도 테스트만으로는 실제로 얼마나 잘 작동하는지 확신하기는 쉽지 않습니다.

이러한 단점을 보완하고자 만든 방법이 바로 k겹 교차 검증(k-fold cross validation)입니다. k겹 교차 검증이란 데이터셋을 여러 개로 나누어 하나씩 테스트셋으로 사용하고 나머지를 모두 합해서 학습셋으로 사용하는 방법입니다. 이렇게 하면 가지고 있는 데이터의 100%를 테스트셋으로 사용할 수 있습니다. 예를 들어, 5겹 교차 검증(5-fold cross validation)의 예가 그림 13-5에 설명되어 있습니다.

 

169

그림 13-5 5겹 교차 검증의 도식

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.