딥러닝 파이토치 교과서: 10.1.3 예측 기반 임베딩

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

다음은 'peter'와 'hook'에 대한 코사인 유사도 결과입니다.

0.043825187

'peter'와 'hook' 두 단어에 대한 유사도 역시 매우 낮지만, 'peter'와 'wendy'보다는 높습니다. 앞서 설명이 있었지만, 데이터가 랜덤으로 사용되므로 결과가 책과 다를 수 있습니다. 대체적으로 'peter'와 'wendy' 간의 유사도가 더 높은 것으로 나타났습니다.

이번에는 사전 훈련된 패스트텍스트 모델을 사용하는 예제를 살펴보겠습니다. 사전 훈련된 패스트텍스트 예제를 위해 다음 URL에서 한국어 모델(Korean > text 버전으로, 파일 이름은 wiki.co.vec)을 내려받습니다.² 다음 URL에 있는 모델은 전 세계 언어 294개로 된 wikipedia 데이터를 사전 학습하여 제공하고 있습니다.

https://fasttext.cc/docs/en/pretrained-vectors.html

사전 학습된 패스트텍스트는 fastText API 또는 Gensim을 이용합니다. 먼저 필요한 라이브러리와 사전 훈련된 모델을 호출합니다.

코드 10-14 라이브러리와 사전 훈련된 모델 호출

from __future__ import print_function
from gensim.models import KeyedVectors   ------ gensim은 자연어를 벡터로 변환하는 데 필요한 편의 기능을 제공하는 라이브러리입니다.

model_kr = KeyedVectors.load_word2vec_format('../chap10/data/wiki.ko.vec') ------ wiki.ko.vec 파일을 메모리로 불러옵니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.