케라스 창시자에게 배우는 딥러닝 개정 2판: 4.1.1 IMDB 데이터셋

num_words=10000 매개변수는 훈련 데이터에서 가장 자주 나타나는 단어 1만 개만 사용하겠다는 의미입니다. 드물게 나타나는 단어는 무시하겠습니다. 이렇게 하면 적절한 크기의 벡터 데이터를 얻을 수 있습니다. 이렇게 제한하지 않으면 훈련 데이터에 8만 8,585개의 고유한 단어가 포함됩니다. 이는 불필요하게 많습니다. 많은 단어가 하나의 샘플에만 등장하기 때문에 분류 작업에 의미 있게 사용할 수 없습니다.

변수 train_data와 test_data는 리뷰를 담은 배열입니다. 각 리뷰는 단어 인덱스의 리스트입니다(단어 시퀀스가 인코딩된 것입니다).⁵ train_labels와 test_labels는 부정을 나타내는 0과 긍정을 나타내는 1의 리스트입니다.

>>> train_data[0]
[1, 14, 22, 16, ... 178, 32]
>>> train_labels[0]
1

가장 자주 등장하는 단어 1만 개로 제한했기 때문에 단어 인덱스는 9,999를 넘지 않습니다.

>>> max([max(sequence) for sequence in train_data])
9999

추천 도서와 신규 콘텐츠를 먼저 받아보세요