모두의 한국어 텍스트 분석 with 파이썬: 4 벡터화하기

◼︎ 시퀀스 만들기

Tokenizer는 데이터에 출현하는 모든 단어의 개수를 세고 빈도수로 정렬해서 num_words에 지정된 만큼만 숫자로 반환하고, 나머지는 0으로 반환한다. vocab_size는 텍스트 데이터의 전체 단어 집합의 크기다. vocab_size를 지정해 단어 사전의 크기를 지정한다. oov_tok을 사용하면 사전에 없는 단어도 벡터에 포함한다.

vocab_size = 10000
oov_tok = "<oov>"
tokenizer = Tokenizer(num_words=vocab_size, oov_token = oov_tok)
tokenizer

실행 결과

<keras_preprocessing.text.Tokenizer at 0x7fba0008f5d0>

Tokenizer에 실제로 데이터를 입력한다. fit_on_texts와 word_index를 사용해 key value로 이루어진 딕셔너리를 생성한다.

tokenizer.fit_on_texts(X_train)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.