4 벡터화하기
◼︎ 토큰화하기
토크나이저는 텍스트를 여러 토큰으로 나눈다. 케라스의 Tokenizer10 클래스를 사용하면 각 텍스트를 일련의 정수(각 정수는 사전에 있는 토큰의 인덱스다) 또는 단어 수에 따라 각 토큰의 계수가 이진일 수 있는 벡터로 변환해 텍스트 데이터를 벡터화(vectorization)할 수 있다. 이는 다음과 같은 과정으로 진행된다.
1 | Tokenizer 인스턴스를 생성한다.
2 | fit_on_texts와 word_index를 이용해 key value로 이루어진 딕셔너리를 생성한다.
3 | texts_to_sequences를 이용해 text 문장을 숫자로 이루어진 리스트로 변경한다.
4 | pad_sequences를 이용해 리스트의 길이를 통일한다.