더북(TheBook)

LESSON 07
학습, 시험 데이터 세트 분리하기

이것으로 전처리가 끝났다. 이제 학습 데이터 세트와 시험 데이터 세트로 다시 분리해 보자. 앞서 말했던 대로 정답값인 topic_idx 값 여부에 따라 데이터를 나눌 수 있다.

label_name = "topic_idx"

데이터를 나눌 때는 판다스의 notnull()isnull() 기능을 사용한다. 데이터를 concat으로 병합한 후 확인할 때 test(시험 데이터 세트)의 topic_idx는 NaN이었다. 따라서 notnull()isnull()을 사용해 topic이 있으면 학습 데이터 세트, 없으면 시험 데이터 세트로 재분할한다.

train = df[df[label_name].notnull()]
test = df[df[label_name].isnull()]
train.shape, test.shape

실행 결과

((45654, 7), (9131, 7))
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.