더북(TheBook)

먼저 필요한 라이브러리와 데이터를 호출합니다. 데이터는 앞서 사용했던 ‘peter.txt’ 파일을 사용합니다.

코드 10-11 라이브러리 및 데이터 호출

from gensim.test.utils import common_texts
from gensim.models import FastText

model = FastText('..\chap10\data\peter.txt', size=4, window=3, min_count=1, iter=10) ------ ①

① FastText에서 사용하는 파라미터는 Word2Vec와 같습니다. 복습 차원에서 파라미터에 대해 다시 정리하겠습니다.

ⓐ 첫 번째 파라미터: 패스트텍스트를 적용할 데이터셋

size: 학습할 임베딩의 크기. 즉, 임베딩된 벡터의 차원

window: 고려할 앞뒤 폭(앞뒤 세 단어)

min_count: 단어에 대한 최소 빈도수 제한(1회 이하 단어 무시)

iter: 반복 횟수(에포크와 같은 의미로 사용)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.