분할한 뒤 shape 함수로 데이터 전체의 개수를 확인해 보자. 원래대로 잘 분할됐다.
X_train = train["title"] X_test = test["title"] X_train.shape, X_test.shape
실행 결과
((45654,), (9131,))
토픽별 개수 역시 기존 원본 데이터의 수와 똑같이 분리됐는지 확인한다.
# 학습 데이터 세트 확인 y_train = train[label_name] y_train.value_counts()
실행 결과
4.0 |
7629 |
2.0 |
7362 |
5.0 |
6933 |
6.0 |
6751 |
1.0 |
6222 |
3.0 |
5933 |
0.0 |
4824 |