밑바닥부터 만들면서 배우는 LLM: 1.6 GPT 구조 자세히 살펴보기 -4

2020년에 출시된 GPT-3는 딥러닝과 대규모 언어 모델의 개발 기준으로 볼 때 구식 모델로 간주됩니다. 하지만 메타의 Llama와 같이 최근 모델도 일부 수정 사항을 제외하면 여전히 동일한 개념을 기반으로 합니다. 따라서 GPT를 이해하는 것은 여전히 매우 도움이 됩니다. 이 책에서는 GPT 구조를 구현하는 데 초점을 맞추고 최신 LLM에서 달라진 점들을 언급하겠습니다.

인코더와 디코더로 구성된 원본 트랜스포머 모델은 명시적으로 언어 번역을 위해 개발되었습니다. 이보다 더 크지만 다음 단어 예측을 목표로 하는 단순한 디코더 기반 구조의 GPT 모델도 번역 작업을 수행할 수 있습니다. 이는 구체적인 번역 작업이 아닌 다음 단어 예측 작업에서 훈련된 모델에서 나왔기 때문에 초기에는 연구자들이 예상치 못한 기능이었습니다.

모델이 명시적으로 훈련되지 않은 작업을 수행하는 능력을 창발적 행동(emergent behavior)이라고 부릅니다. 이 능력은 훈련 과정에서 명시적으로 학습하는 것이 아니라 모델이 다양한 맥락의 대용량 다국어 데이터에 노출됨으로써 자연스러운 결과로 획득합니다. GPT 모델이 구체적으로 번역을 위해 훈련되지 않았더라도 언어 사이의 번역 패턴을 학습하고 번역 작업을 수행할 수 있다는 사실은 대규모 생성 언어 모델의 장점과 능력을 잘 보여 줍니다. 따라서 작업마다 개별 모델을 사용할 필요 없이 하나의 모델로 다양한 작업을 수행할 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.