다음은 문장에서 사용되는 ‘사과’라는 단어의 코사인 유사도를 측정한 결과입니다.
*유사한* 의미에 대한 벡터 유사성: 0.86 *다른* 의미에 대한 벡터 유사성: 0.91
역시 다국어 버트 모델을 사용하더라도 한국어에 대해서는 정확한 판별이 어려운 것을 확인할 수 있습니다. 또한, 사과라는 단어가 한 번 더 쪼개져 있기 때문에 정확한 결과라고 하기도 어렵습니다. 한국어에 대한 임베딩은 국내에서 개발된 모델을 이용하는 것이 정확도가 더 높기 때문에 KoBert 같은 모델도 학습해 보기 바랍니다.
어떤가요? 영어와 다르지 않다는 것을 확인할 수 있었습니다. 즉, 자연어 처리를 위한 임베딩 방법만 알고 있다면 언어와 상관없이 단어/문장에 대한 임베딩을 진행하며, 모델을 생성하고 훈련시킨 후 예측 및 분류를 수행할 수 있습니다.
지금까지 9~10장에 걸쳐 자연어 처리를 간단히 살펴보았습니다. 다음 장에서는 클러스터링을 배워 보겠습니다.