◼︎ 시퀀스 만들기
Tokenizer는 데이터에 출현하는 모든 단어의 개수를 세고 빈도수로 정렬해서 num_words에 지정된 만큼만 숫자로 반환하고, 나머지는 0으로 반환한다. vocab_size는 텍스트 데이터의 전체 단어 집합의 크기다. vocab_size를 지정해 단어 사전의 크기를 지정한다. oov_tok을 사용하면 사전에 없는 단어도 벡터에 포함한다.
vocab_size = 10000 oov_tok = "<oov>" tokenizer = Tokenizer(num_words=vocab_size, oov_token = oov_tok) tokenizer
실행 결과
<keras_preprocessing.text.Tokenizer at 0x7fba0008f5d0>
Tokenizer에 실제로 데이터를 입력한다. fit_on_texts와 word_index를 사용해 key value로 이루어진 딕셔너리를 생성한다.
tokenizer.fit_on_texts(X_train)