더북(TheBook)

다음은 'peter''hook'에 대한 코사인 유사도 결과입니다.

0.043825187

'peter''hook' 두 단어에 대한 유사도 역시 매우 낮지만, 'peter''wendy'보다는 높습니다. 앞서 설명이 있었지만, 데이터가 랜덤으로 사용되므로 결과가 책과 다를 수 있습니다. 대체적으로 'peter''wendy' 간의 유사도가 더 높은 것으로 나타났습니다.

이번에는 사전 훈련된 패스트텍스트 모델을 사용하는 예제를 살펴보겠습니다. 사전 훈련된 패스트텍스트 예제를 위해 다음 URL에서 한국어 모델(Korean > text 버전으로, 파일 이름은 wiki.co.vec)을 내려받습니다.2 다음 URL에 있는 모델은 전 세계 언어 294개로 된 wikipedia 데이터를 사전 학습하여 제공하고 있습니다.

https://fasttext.cc/docs/en/pretrained-vectors.html

사전 학습된 패스트텍스트는 fastText API 또는 Gensim을 이용합니다. 먼저 필요한 라이브러리와 사전 훈련된 모델을 호출합니다.

코드 10-14 라이브러리와 사전 훈련된 모델 호출

from __future__ import print_function
from gensim.models import KeyedVectors   ------ gensim은 자연어를 벡터로 변환하는 데 필요한 편의 기능을 제공하는 라이브러리입니다.

model_kr = KeyedVectors.load_word2vec_format('../chap10/data/wiki.ko.vec') ------ wiki.ko.vec 파일을 메모리로 불러옵니다.
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.