다음은 'peter'와 'hook'에 대한 코사인 유사도 결과입니다.
0.043825187
'peter'와 'hook' 두 단어에 대한 유사도 역시 매우 낮지만, 'peter'와 'wendy'보다는 높습니다. 앞서 설명이 있었지만, 데이터가 랜덤으로 사용되므로 결과가 책과 다를 수 있습니다. 대체적으로 'peter'와 'wendy' 간의 유사도가 더 높은 것으로 나타났습니다.
이번에는 사전 훈련된 패스트텍스트 모델을 사용하는 예제를 살펴보겠습니다. 사전 훈련된 패스트텍스트 예제를 위해 다음 URL에서 한국어 모델(Korean > text 버전으로, 파일 이름은 wiki.co.vec)을 내려받습니다.2 다음 URL에 있는 모델은 전 세계 언어 294개로 된 wikipedia 데이터를 사전 학습하여 제공하고 있습니다.
https://fasttext.cc/docs/en/pretrained-vectors.html
사전 학습된 패스트텍스트는 fastText API 또는 Gensim을 이용합니다. 먼저 필요한 라이브러리와 사전 훈련된 모델을 호출합니다.
코드 10-14 라이브러리와 사전 훈련된 모델 호출
from __future__ import print_function
from gensim.models import KeyedVectors ------ gensim은 자연어를 벡터로 변환하는 데 필요한 편의 기능을 제공하는 라이브러리입니다.
model_kr = KeyedVectors.load_word2vec_format('../chap10/data/wiki.ko.vec') ------ wiki.ko.vec 파일을 메모리로 불러옵니다.