더북(TheBook)

패스트텍스트

패스트텍스트(FastText)는 워드투벡터의 단점을 보완하고자 페이스북에서 개발한 임베딩 알고리즘입니다. 기존 워드투벡터의 워드 임베딩 방식은 분산 표현(distributed representation)을 이용하여 단어의 분산 분포가 유사한 단어들에 비슷한 벡터 값을 할당하여 표현합니다. 따라서 워드투벡터는 사전에 없는 단어에 대해서는 벡터 값을 얻을 수 없습니다. 또한, 워드투벡터는 자주 사용되지 않는 단어에 대해서는 학습이 불안정합니다.

▲ 그림 10-6 워드투벡터 단점

패스트텍스트는 이러한 단점들을 보완하려고 개발된 단어 표현(word representation) 방법을 사용합니다. 패스트텍스트는 노이즈에 강하며, 새로운 단어에 대해서는 형태적 유사성을 고려한 벡터 값을 얻기 때문에 자연어 처리 분야에서 많이 사용되는 알고리즘입니다. 패스트텍스트가 워드투벡터 단점을 극복하는 방법은 다음과 같습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.