더북(TheBook)

1 지도학습과 데이터 세트 분리

 

데이터 세트는 학습(training), 검증(validation), 시험(test)용으로 나누는 것이 일반적이다. 학습용과 검증용은 실제로 시험을 보러 가기 전에 얼마나 공부했는지 모의고사를 풀고 채점하는 것이다. 가령 문제가 10회분이 있다면 1~8회는 학습용으로 사용하고, 9회는 실전 모의고사용으로 풀고, 마지막 10회는 실제 시험인 셈이다. 따라서 데이터를 분리할 때는 학습, 검증, 시험 세트의 분포가 전체 데이터의 분포를 반영할 수 있도록 분리해야 한다.

데이터 크기가 너무 작다면 검증 세트를 생략하고 학습 세트와 시험 세트로만 구성할 수도 있다. 여기서는 국민청원이 들어 있는 텍스트 데이터의 70%를 학습에 사용하고, 30%는 예측, 즉 시험에 사용할 것이다. 이를 통해 예측한 답이 얼마나 정확한지 알 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.