더북(TheBook)

5 학습 세트와 시험 세트 만들기

 

전처리가 끝난 데이터로 학습 데이터 세트와 시험 데이터 세트를 분리하자. 학습 세트와 시험 세트는 7:3 비율로 나눠 줄 것이다. 나누기 전에 분석할 데이터를 확인해 보자.

df.shape

실행 결과

(5109, 11)

 

총 5,109개 행과 11개 열로 되어 있다. 국민청원 데이터 세트 출처에는 더 많은 데이터가 있기 때문에 분석할 데이터를 늘리면 정확도를 더 높일 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.