밑바닥부터 만들면서 배우는 LLM: 1.4 트랜스포머 구조 소개 -6

반면 GPT는 원본 트랜스포머 구조의 디코더 부분만 사용하며 텍스트 생성이 필요한 작업을 위해 고안되었습니다. 이런 작업으로는 기계 번역, 텍스트 요약, 소설 쓰기, 컴퓨터 프로그램 작성 등이 있습니다.

주로 텍스트 완성 작업을 수행하도록 설계되고 훈련된 GPT 모델은 놀랍게도 다양한 능력을 보여 줍니다. 이런 모델은 제로-샷 학습(zero-shot learning)과 퓨-샷 학습 작업을 수행하는 데 능숙합니다. 제로-샷 학습은 사전에 어떤 구체적인 예시도 없이 처음 보는 작업에 일반화하는 능력을 의미합니다. 반면 퓨-샷 학습은 그림 1-6처럼 사용자가 입력으로 제공한 최소한의 샘플로부터 학습합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.