더북(TheBook)

2 단어의 원‐핫 인코딩

 

앞서 우리는 문장을 컴퓨터가 알아들을 수 있게 토큰화하고 단어의 빈도수를 확인해 보았습니다. 하지만 단순히 단어의 출현 빈도만 가지고는 해당 단어가 문장의 어디에서 왔는지, 각 단어의 순서는 어떠했는지 등에 관한 정보를 얻을 수 없습니다.

단어가 문장의 다른 요소와 어떤 관계를 가지고 있는지 알아보는 방법이 필요합니다. 이러한 기법 중에서 가장 기본적인 방법인 원-핫 인코딩(one-hot encoding)을 알아보겠습니다. 앞서 ‘12장. 다중 분류 문제 해결하기’에서 배운 원-핫 인코딩과 같은 개념인데, 이것을 단어의 배열에 적용해 보는 것입니다. 예를 들어 다음과 같은 문장이 있습니다.

'오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

각 단어를 모두 0으로 바꾸어 주고 원하는 단어만 1로 바꾸어 주는 것이 원-핫 인코딩이었습니다. 이를 수행하기 위해 먼저 단어 수만큼 0으로 채워진 벡터 공간으로 바꾸면 다음과 같습니다.

(0인덱스) 오랫동안 꿈꾸는 이는 그 꿈을 닮아간다
     |       |        |    |    |   |     |
[    0       0        0    0    0   0     0 ]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.