더북(TheBook)

다음과 같이 불러온 데이터를 학습셋과 테스트셋으로 나누겠습니다.

# 불러온 데이터를 학습셋과 데이터셋으로 나누기
(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words=1000, test_split=0.2)

reuters.load_data() 함수를 이용해 기사를 불러왔습니다. test_split 옵션을 통해 20%만 테스트셋으로 사용하겠다고 지정했습니다. 여기서 num_words 옵션은 무엇을 의미하는지 알아보고자 먼저 불러온 데이터에 대해 몇 가지를 출력해 보겠습니다.

# 데이터를 확인한 후 출력해 보겠습니다.
category = np.max(y_train) + 1
print(category, '카테고리')
print(len(X_train), '학습용 뉴스 기사')
print(len(X_test), '테스트용 뉴스 기사')
print(X_train[0])

출력 결과는 다음과 같습니다.

 

실행 결과

46 카테고리
8982 학습용 뉴스 기사
2246 테스트용 뉴스 기사
[1, 2, 2, 8, 43, 10, 447, 5, 25, 207...]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.