다음은 워드투벡터에서 진행했던 peter.txt 데이터셋을 사용하여 CBOW 코드를 작성한 예제입니다.
코드 10-7 데이터셋에 CBOW 적용 후 ‘peter’와 ‘wendy’의 유사성 확인
model1 = gensim.models.Word2Vec(data, min_count=1,
size=100, window=5, sg=0) ------ ①
print("Cosine similarity between 'peter' " +
"'wendy' - CBOW : ",
model1.similarity('peter', 'wendy')) ------ 결과 출력
① Word.Vec의 파라미터는 다음과 같습니다.
ⓐ 첫 번째 파라미터: CBOW를 적용할 데이터셋
ⓑ min_count: 단어에 대한 최소 빈도수 제한(빈도가 적은 단어들은 학습하지 않음)
ⓒ size: 워드 벡터의 특징 값. 즉, 임베딩된 벡터의 차원
ⓓ window: 컨텍스트 윈도우 크기
ⓔ sg: sg가 0일 때는 CBOW를 의미하며, sg가 1일 때는 skip-gram을 나타냅니다. 그리고 값을 지정하지 않으면 기본값은 CBOW를 의미합니다.