더북(TheBook)

코드

#gensim은 자연어 처리를 위한 파이썬 라이브러리로, 문서 유사성 분석을 위해 사용됩니다.
!pip install genism 

from gensim.models import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec

#사전에 구글 드라이브에 'glove.6B.100d.txt' 파일을 업로드해야 합니다. 업로드 방법은 부록을 참조해주세요. 또는 https://nlp.stanford.edu/projects/glove 사이트에서 'glove.6B.zip' 파일을 내려받으면 됩니다.
glove_path = '/content/sample_data/glove.6B.100d.txt' 

with open(glove_path, 'w') as f:
    f.write("cat 0.5 0.3 0.2\n")
    f.write("dog 0.4 0.7 0.8\n")

#GloVe 파일 형식을 word2vec 형식으로 변환
word2vec_output_file = glove_path + '.word2vec'
glove2word2vec(glove_path, word2vec_output_file)

model = KeyedVectors.load_word2vec_format(word2vec_output_file, binary=False)
cat_vector = model['cat']  #'cat'에 대한 벡터
cat_vector
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.