다음 단어 예측 작업은 셀프 레이블링(self-labeling)의 하나인 자기 지도 학습의 한 형태입니다. 이는 훈련 데이터의 레이블을 명시적으로 수집할 필요가 없고 데이터 구조 자체를 활용할 수 있다는 의미입니다. 즉, 문장이나 문서에 있는 다음 단어를 모델이 예측해야 할 레이블로 사용할 수 있습니다. 다음 단어 예측 작업을 사용하면 즉석에서 레이블을 만들 수 있기 때문에 레이블이 없는 대용량의 데이터셋을 사용해 LLM을 훈련할 수 있습니다.
1.4절에서 소개한 원본 트랜스포머 구조와 비교하면 일반적인 GPT 구조는 비교적 간단합니다. 기본적으로 인코더 없이 디코더 모듈만 사용합니다(그림 1-8). GPT와 같은 디코더 기반의 모델은 한 번에 한 단어씩 예측하여 텍스트를 생성하기 때문에 자기회귀 모델(autoregressive model)의 한 유형으로 간주됩니다. 자기회귀 모델은 이전 출력을 입력으로 사용해 미래를 예측합니다. 결과적으로 GPT에서는 이전 시퀀스를 기반으로 다음 단어를 선택하는 식으로 출력 텍스트의 일관성을 향상시킵니다.
GPT-3와 같은 구조는 원본 트랜스포머 모델보다 훨씬 큽니다. 예를 들어 원본 트랜스포머는 인코더 블록과 디코더 블록을 여섯 번 반복합니다. GPT-3는 96개의 트랜스포머 층이 있으며 총 1,750억 개의 파라미터를 가집니다.4