더북(TheBook)

skip-gram

skip-gram 방식은 CBOW 방식과 반대로 특정한 단어에서 문맥이 될 수 있는 단어를 예측합니다. 즉, skip-gram은 다음 그림과 같이 중심 단어에서 주변 단어를 예측하는 방식을 사용합니다.

▲ 그림 10-5 skip-gram

보통 입력 단어 주변의 단어 k개를 문맥으로 보고 예측 모형을 만드는데, 이 k 값을 윈도우 크기라고 합니다.

계속해서 피터팬(peter.txt) 데이터셋을 사용한 예제입니다.

코드 10-9 데이터셋에 skip-gram 적용 후 ‘peter’와 ‘wendy’의 유사성 확인

model2 = gensim.models.Word2Vec(data, min_count=1, size=100,
                                window=5, sg=1) ------ skip-gram 모델 생성
print("Cosine similarity between 'peter' " +
          "'wendy' - Skip Gram : ",
      model2.similarity('peter', 'wendy')) ------ 결과 출력
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.