더북(TheBook)

10.1.4 횟수/예측 기반 임베딩

앞서 살펴본 횟수 기반과 예측 기반의 단점을 보완하기 위한 임베딩 기법에는 대표적으로 글로브가 있습니다.

 

글로브

글로브(GloVe, Global Vectors for Word Representation)는 횟수 기반의 LSA(Latent Semantic Analysis)
(잠재 의미 분석)와 예측 기반의 워드투벡터 단점을 보완하기 위한 모델입니다. 글로브는 그 이름에서 유추할 수 있듯이 단어에 대한 글로벌 동시 발생 확률(global co-occurrence statistics) 정보를 포함하는 단어 임베딩 방법입니다. 즉, 단어에 대한 통계 정보와 skip-gram을 합친 방식이라고 할 수 있습니다. 다시 풀어서 이야기하면 skip-gram 방법을 사용하되 통계적 기법이 추가된 것이라고 할 수 있습니다. 따라서 글로브를 사용하면 다음 그림과 같이 단어 간 관련성을 통계적 방법으로 표현해 줍니다.

▲ 그림 10-8 글로브를 이용한 단어 간 관련성 예시

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.