트랜스포머와 LLM의 핵심 요소는 (그림 1-4에 없는) 셀프 어텐션 메커니즘입니다. 이를 통해 모델은 시퀀스에 있는 서로 다른 단어 또는 토큰(token)에 상대적인 가중치를 부여할 수 있습니다. 이 메커니즘 덕분에 모델이 입력 데이터에서 긴 범위에 걸친 의존성과 맥락 관계를 포착할 수 있어 일관성 있고 맥락에 맞는 출력을 생성할 수 있습니다. 하지만 복잡하기 때문에 설명을 나중으로 미루고 3장에서 단계별로 이를 구현하면서 자세히 살펴보겠습니다.
BERT(bidirectional encoder representations from transformers)와 여러 버전의 GPT 모델 같은 트랜스포머 구조의 최신 변종은 이 개념을 기반으로 다양한 작업에 이 구조를 적용했습니다. 관심이 있다면 부록 B에 소개된 내용을 참고하세요.
원본 트랜스포머 인코더 모듈을 기반으로 하는 BERT는 GPT와 훈련 방식이 다릅니다. 그림 1-5와 같이 GPT는 생성 작업을 위해 고안되었지만 BERT 및 유사 모델들은 주어진 문장에서 마스킹(masking)되거나 가려진 단어를 예측하는 마스킹된 단어 예측에 특화되어 있습니다. 이런 독특한 훈련 전략 덕분에 BERT는 감성 분석과 문서 분류를 포함해 텍스트 분류 작업에 강점을 갖게 되었습니다. BERT의 이런 능력이 적용된 사례 중 하나로 이 글을 쓰는 시점에 X(구 트위터(Twitter))가 BERT를 사용해 유해한 콘텐츠를 감지하는 것을 들 수 있습니다.