더북(TheBook)

분할한 뒤 shape 함수로 데이터 전체의 개수를 확인해 보자. 원래대로 잘 분할됐다.

X_train = train["title"]
X_test = test["title"]
 
X_train.shape, X_test.shape

실행 결과

((45654,), (9131,))

 

토픽별 개수 역시 기존 원본 데이터의 수와 똑같이 분리됐는지 확인한다.

# 학습 데이터 세트 확인
y_train = train[label_name]
y_train.value_counts()

실행 결과

4.0

7629

2.0

7362

5.0

6933

6.0

6751

1.0

6222

3.0

5933

0.0

4824

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.