num_words=10000 매개변수는 훈련 데이터에서 가장 자주 나타나는 단어 1만 개만 사용하겠다는 의미입니다. 드물게 나타나는 단어는 무시하겠습니다. 이렇게 하면 적절한 크기의 벡터 데이터를 얻을 수 있습니다. 이렇게 제한하지 않으면 훈련 데이터에 8만 8,585개의 고유한 단어가 포함됩니다. 이는 불필요하게 많습니다. 많은 단어가 하나의 샘플에만 등장하기 때문에 분류 작업에 의미 있게 사용할 수 없습니다.
변수 train_data와 test_data는 리뷰를 담은 배열입니다. 각 리뷰는 단어 인덱스의 리스트입니다(단어 시퀀스가 인코딩된 것입니다).5 train_labels와 test_labels는 부정을 나타내는 0과 긍정을 나타내는 1의 리스트입니다.
>>> train_data[0] [1, 14, 22, 16, ... 178, 32] >>> train_labels[0] 1
가장 자주 등장하는 단어 1만 개로 제한했기 때문에 단어 인덱스는 9,999를 넘지 않습니다.
>>> max([max(sequence) for sequence in train_data]) 9999