이번에는 사전 훈련된 패스트텍스트 모델을 사용하는 예제를 살펴보겠습니다. 사전 훈련된 패스트텍스트 예제를 위해 다음 URL에서 한국어 모델(Korean > text 버전으로, 파일 이름은 wiki.co.vec)을 내려받습니다.2 다음 URL에 있는 모델은 전 세계 언어 294개로 된 wikipedia 데이터를 사전 학습하여 제공하고 있습니다.
https://fasttext.cc/docs/en/pretrained-vectors.html
사전 학습된 패스트텍스트는 fastText API 또는 Gensim을 이용합니다. 먼저 필요한 라이브러리와 사전 훈련된 모델을 호출합니다.
코드 10-14 라이브러리와 사전 훈련된 모델 호출
from __future__ import print_function
from gensim.models import KeyedVectors
model_kr = KeyedVectors.load_word2vec_format('../chap10/data/wiki.ko.vec') ------ https://fasttext.cc/docs/en/pretrained-vectors.html에서 ‘Korean: bin+text, text’ 모델 중 ‘text’를 선택하여 내려받아 진행합니다.
사전 훈련된 모델을 이용하여 ‘노력’과 유사한 단어와 유사도를 확인해 보겠습니다.
코드 10-15 ‘노력’과 유사한 단어와 유사도 확인
find_similar_to = '노력'
for similar_word in model_kr.similar_by_word(find_similar_to):
print("Word: {0}, Similarity: {1:.2f}".format(
similar_word[0], similar_word[1]
))
2 내려받은 wiki.co.vec 파일(약 2GByte)은 chap10의 data 폴더 아래에 넣어 주세요. bin+txt 형태의 압축 파일(약 4GByte)을 내려받았다면 압축을 해제한 후 wiki.co.vec 파일만 data 폴더 안에 넣어 주면 됩니다.