더북(TheBook)

4 벡터화하기

 

◼︎ 토큰화하기

토크나이저는 텍스트를 여러 토큰으로 나눈다. 케라스의 Tokenizer10 클래스를 사용하면 각 텍스트를 일련의 정수(각 정수는 사전에 있는 토큰의 인덱스다) 또는 단어 수에 따라 각 토큰의 계수가 이진일 수 있는 벡터로 변환해 텍스트 데이터를 벡터화(vectorization)할 수 있다. 이는 다음과 같은 과정으로 진행된다.

 

1 | Tokenizer 인스턴스를 생성한다.

2 | fit_on_texts와 word_index를 이용해 key value로 이루어진 딕셔너리를 생성한다.

3 | texts_to_sequences를 이용해 text 문장을 숫자로 이루어진 리스트로 변경한다.

4 | pad_sequences를 이용해 리스트의 길이를 통일한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.