② Gensim의 glove2word2vec() 함수를 사용하여 glove를 워드투벡터 형태로 변경할 수 있습니다. 이후부터는 변경된 형태를 이용하여 기존 워드투벡터의 함수를 사용할 수 있습니다.
ⓐ 첫 번째 인자: 글로브 입력 파일
ⓑ 두 번째 인자: 워드투벡터 출력 파일
즉, 글로브 데이터를 워드투벡터로 변환하겠다는 의미입니다.
다음은 glove.6B.100d.txt 데이터셋에 대한 정보를 출력한 결과입니다.
(400000, 100)
글로브가 적용되었다면, ‘bill’과 유사한 단어의 리스트를 보여 주는 코드를 작성해 보겠습니다.
코드 10-18 ‘bill’과 유사한 단어의 리스트를 반환
model = KeyedVectors.load_word2vec_format(word2vec_glove_file) ------ load_word2vec_format() 메서드를 이용하여 word2vec.c 형식으로 벡터를 가져옵니다.
model.most_similar('bill') ------ 단어(bill) 기준으로 가장 유사한 단어들의 리스트를 보여 줍니다.