더북(TheBook)

코드 10-7은 워드투벡터에서 진행했던 peter.txt 데이터셋을 사용하여 CBOW 코드를 작성한 예제입니다.

코드 10-7 데이터셋에 CBOW 적용 후 ‘peter’와 ‘wendy’의 유사성 확인

model1 = gensim.models.Word2Vec(data, min_count=1, vector_size=100, window=5, sg=0) ------ ①

print("Cosine similarity between 'peter' " + "'wendy' - CBOW : ",
      model1.wv.similarity('peter', 'wendy')) ------ 결과 출력

Word2Vec의 파라미터는 다음과 같습니다.

ⓐ 첫 번째 파라미터: CBOW를 적용할 데이터셋

min_count: 단어에 대한 최소 빈도수 제한(빈도가 적은 단어들은 학습하지 않음)

vector_size: 워드 벡터의 특징 값. 즉, 임베딩된 벡터의 차원

window: 컨텍스트 윈도우 크기

sg: sg가 0일 때는 CBOW를 의미하며, sg가 1일 때는 skip-gram을 나타냅니다. 그리고 값을 지정하지 않으면 기본값은 CBOW를 의미합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.