모두의 한국어 텍스트 분석 with 파이썬: LESSON 07 학습, 시험 데이터 세트 분리하기

분할한 뒤 shape 함수로 데이터 전체의 개수를 확인해 보자. 원래대로 잘 분할됐다.

X_train = train["title"]
X_test = test["title"]
 
X_train.shape, X_test.shape

실행 결과

((45654,), (9131,))

토픽별 개수 역시 기존 원본 데이터의 수와 똑같이 분리됐는지 확인한다.

# 학습 데이터 세트 확인
y_train = train[label_name]
y_train.value_counts()

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.