밑바닥부터 만들면서 배우는 LLM: 1.6 GPT 구조 자세히 살펴보기

SECTION 1.6 GPT 구조 자세히 살펴보기

GPT는 오픈AI의 알렉 래드포드(Alec Radford) 등이 쓴 “Improving Language Understanding by Generative Pre-Training”(https://mng.bz/x2qg) 논문에서 처음 소개되었습니다. GPT-3는 이 모델의 확장 버전으로 파라미터가 더 많고, 더 큰 데이터셋에서 훈련되었습니다. 또한 오픈AI의 InstructGPT 논문(https://arxiv.org/abs/2203.02155)에 나온 방법으로 대규모 지시 데이터셋에서 GPT-3를 미세 튜닝했고, 이를 통해 ChatGPT에서 사용된 초기 모델을 만들었습니다. 그림 1-6에서 보듯이 이런 모델은 텍스트 완성에 유능하며 맞춤법 수정, 분류, 언어 번역과 같은 다른 작업을 수행할 수 있습니다. 그림 1-7에 나와 있듯이 GPT 모델이 비교적 간단한 다음 단어 예측 작업에서 사전 훈련되었다는 점을 생각하면 매우 놀랍습니다.

▲ 그림 1-7 GPT 모델을 위한 다음 단어 예측 기반의 사전 훈련 작업에서 시스템은 지금까지 나온 단어를 사용해 문장에 나오는 다음 단어를 예측하는 방법을 학습합니다. 이런 접근 방식은 모델이 언어에서 단어와 구문이 일반적으로 어떻게 결합되는지 이해하는 데 도움이 되며, 다양한 다른 작업에 적용할 수 있는 기반을 형성합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.