이제 각 단어가 배열 내에서 해당하는 위치를 1로 바꾸어서 벡터화할 수 있습니다.
오랫동안 = [ 0 1 0 0 0 0 0 ] 꿈꾸는 = [ 0 0 1 0 0 0 0 ] 이는 = [ 0 0 0 1 0 0 0 ] 그 = [ 0 0 0 0 1 0 0 ] 꿈을 = [ 0 0 0 0 0 1 0 ] 닮아간다 = [ 0 0 0 0 0 0 1 ]
이러한 과정을 케라스로 실습해 보겠습니다.
먼저 토큰화 함수를 불러와 단어 단위로 토큰화하고 각 단어의 인덱스 값을 출력해 봅니다.
"오랫동안 꿈꾸는 이는 그 꿈을 닮아간다" = Tokenizer() .fit_on_texts([ ]) print( .word_index)=
결과는 다음과 같습니다.
실행 결과
{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}