IMDB 리뷰처럼 각 샘플은 정수 리스트입니다(단어 인덱스).
>>> train_data[10]
[1, 245, 273, 207, 156, 53, 74, 160, 26, 14, 46, 296, 26, 39, 74, 2979, 3554, 14, 46, 4689, 4329, 86, 61, 3499, 4795, 14, 61, 451, 4329, 17, 12]
궁금한 경우를 위해 어떻게 단어로 디코딩하는지 알아보겠습니다.
코드 4-12 로이터 데이터셋을 텍스트로 디코딩하기
dict(
[( , ) for ( , ) in .items()])
= " ".join(
[ .get( - 3, "?") for in train_data[0]]) ➊
= reuters.get_word_index()
= ➊ 0, 1, 2는 ‘패딩’, ‘문서 시작’, ‘사전에 없음’을 위해 예약되어 있으므로 인덱스에서 3을 뺍니다.
샘플에 연결된 레이블은 토픽의 인덱스로 0과 45 사이의 정수입니다.
>>> train_labels[10]
3