트랜스포머의 등장과 발전
2017년, 구글의 연구팀은 “Attention is All You Need”라는 논문에서 트랜스포머(transformer)를 제안했습니다. 이 모델은 RNN을 대체할 수 있는 구조로, 어텐션 메커니즘만으로 시퀀스 데이터를 효과적으로 처리할 수 있었습니다.
어텐션(attention) 메커니즘은 입력 문장의 각 단어가 다른 단어와의 관계를 고려해 가중치를 계산하고, 중요한 단어에 집중하는 방식입니다. 참고로 트랜스포머에서는 셀프 어텐션을 사용해 문장의 각 단어가 서로 어떻게 연결되어 있는지를 파악함으로써 문맥을 효과적으로 이해할 수 있습니다. 여기서 셀프 어텐션은 문장 내 각 단어가 다른 모든 단어와의 관계를 ‘스스로 계산’해 문맥에서 중요한 정보를 효과적으로 반영하는 메커니즘입니다.
트랜스포머 구조를 바탕으로 많은 언어 모델이 발전했고, 각 모델은 고유한 목적과 특징으로 자연어 처리 문제를 해결했습니다. 트랜스포머의 가장 큰 공헌은 대규모 사전 학습(pre-training) 기법과 결합해 새로운 언어 모델들을 탄생시켰다는 점입니다. 다음은 트랜스포머 구조를 바탕으로 생성된 모델입니다.