이제 각 단어를 원-핫 인코딩 방식으로 표현해 보겠습니다. 케라스에서 제공하는 Tokenizer의 texts_to_sequences() 함수를 사용해서 앞서 만들어진 토큰의 인덱스로만 채워진 새로운 배열을 만들어 줍니다.
print( )= token.texts_to_sequences([text])
실행 결과
[[1, 2, 3, 4, 5, 6]]
이제 1~6의 정수로 인덱스되어 있는 것을 0과 1로만 이루어진 배열로 바꾸어 주는 to_categorical() 함수를 사용해 원-핫 인코딩 과정을 진행합니다. 배열 맨 앞에 0이 추가되므로 단어 수보다 1이 더 많게 인덱스 숫자를 잡아 주는 것에 유의하기 바랍니다.
from tensorflow.keras.utils import to_categorical # 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기 = len(token.word_index) + 1 = to_categorical(x, = ) print( )