두 모델은 학습 방법에 차이가 있다.
◼︎ BERT 모델
양방향(bidirectional) 언어 모델로, 사전 학습 단계에서 입력 문장의 좌우 문맥을 모두 고려하여 단어의 임베딩 벡터를 생성한다. 이후 미세 조정(fine-tuning) 단계에서 해당 과제의 데이터로 추가 학습하여 성능을 개선한다. 학습할 때는 주어진 입력 문장에서 특정 토큰의 위치에 대한 임베딩 벡터를 출력하는데, 이를 이용해 다양한 자연어 이해 과제에서 주로 쓰인다.
◼︎ GPT 모델
단방향(unidirectional) 언어 모델로, 이전 단어들을 이용하여 다음 단어를 생성하도록 학습되기 때문에 주로 생성 과제에 사용된다. 가령, ‘우리 강아지는 매우 ( ).’라는 문장이 있을 때 GPT 모델은 괄호 안에 들어갈 수 있는 ‘장난을 좋아한다’ 또는 ‘작다’ 등의 단어를 예측한다. 다음은 AllenNLP의 데모3에서 GPT 모델에 My dog is very를 입력한 경우 다음 문장으로 올 수 있는 단어 연쇄의 확률이다.