1.6 GPT 구조 자세히 살펴보기
1. GPT 모델은 시퀀스에 있는 다음 단어를 예측하는 다음 단어 예측 작업에서 주로 훈련됩니다. 이 간단한 작업을 통해 모델이 단어와 구절 사이의 관계를 학습할 수 있으며, 특정 작업을 위해 명시적으로 훈련되지 않더라도 번역과 같은 작업을 수행할 수 있게 만듭니다.
2. GPT 모델은 명시적인 레이블이 없이 데이터 자체로부터 학습하는 자기 지도 학습을 활용합니다. GPT의 경우 시퀀스에 있는 다음 단어가 모델이 예측해야 할 레이블의 역할을 합니다. 이런 방식으로 레이블이 없는 대규모 텍스트 데이터셋에서 훈련할 수 있습니다.
3. GPT 구조는 트랜스포머의 디코더 부분만 사용하므로 디코더 기반 모델입니다. 이런 구조는 한 번에 한 단어씩 왼쪽에서 오른쪽 방향으로 텍스트를 생성하기 때문에 텍스트 생성과 다음 단어 예측 작업에 잘 맞습니다.