모두의 딥러닝 개정 3판: 2 단어의 원‐핫 인코딩

이제 각 단어가 배열 내에서 해당하는 위치를 1로 바꾸어서 벡터화할 수 있습니다.

 오랫동안 =      [ 0 1 0 0 0 0 0 ]
 꿈꾸는   =      [ 0 0 1 0 0 0 0 ]
 이는     =      [ 0 0 0 1 0 0 0 ]
 그       =      [ 0 0 0 0 1 0 0 ]
 꿈을     =      [ 0 0 0 0 0 1 0 ]
 닮아간다 =      [ 0 0 0 0 0 0 1 ]

이러한 과정을 케라스로 실습해 보겠습니다.

먼저 토큰화 함수를 불러와 단어 단위로 토큰화하고 각 단어의 인덱스 값을 출력해 봅니다.

text = "오랫동안 꿈꾸는 이는 그 꿈을 닮아간다"

token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

결과는 다음과 같습니다.

실행 결과

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.