단어 수준 임베딩 기반 모델의 한계
머신러닝 기술이 발전함에 따라 컴퓨터에게 자연어를 이해시키는 알고리즘도 점차 발전했습니다. 단어의 출현 빈도로 문장, 문서의 유사성을 판단하는 TF-IDF 방식에서 문장을 구성하는 단어가 의미 있는 방향을 가지는 Word2Vec 등 다양한 알고리즘이 만들어졌죠.
하지만 이러한 단어 수준 임베딩 기반 모델에서는 앞서 Overview에서도 살펴봤듯이 같은 단어이지만 문맥에 따라서 그 의미가 바뀔 수 있는 경우 정확도가 많이 취약했습니다. 그렇다면 문맥에 따라 의미가 달라지는 문장은 어떻게 구분해야 할까요?
BERT
자연어 처리 세계는 이 논문6이 나오기 전과 후로 나뉜다고 해도 과언이 아닐 정도로, BERT (Bidirectional Encoder Representations from Transformers)는 굉장한 센세이션을 일으킨 모델입니다. 자연어 처리 관련 벤치마크 테스트에서 이전에 다른 모델이 달성했던 성능을 훨씬 웃도는 SOTA(State-of-the-art)를 달성함과 동시에 모델이 가진 엄청난 파라미터 수와 사전 학습(Pre-training) 시간이 화제가 되었습니다.