LESSON 07
학습, 시험 데이터 세트 분리하기
이것으로 전처리가 끝났다. 이제 학습 데이터 세트와 시험 데이터 세트로 다시 분리해 보자. 앞서 말했던 대로 정답값인 topic_idx 값 여부에 따라 데이터를 나눌 수 있다.
label_name = "topic_idx"
데이터를 나눌 때는 판다스의 notnull()과 isnull() 기능을 사용한다. 데이터를 concat으로 병합한 후 확인할 때 test(시험 데이터 세트)의 topic_idx는 NaN이었다. 따라서 notnull()과 isnull()을 사용해 topic이 있으면 학습 데이터 세트, 없으면 시험 데이터 세트로 재분할한다.
train = df[df[label_name].notnull()] test = df[df[label_name].isnull()] train.shape, test.shape
실행 결과
((45654, 7), (9131, 7))