LLM을 만드는 첫 번째 단계는 원시 텍스트(raw text)라고도 부르는 대규모 텍스트 말뭉치(corpus)에서 훈련하는 것입니다. 여기에서 ‘원시’란 데이터에 레이블 정보가 없는 일반적인 텍스트라는 의미입니다(서식 문자나 알 수 없는 언어로 된 문서를 제거하는 등의 필터링(filtering)을 적용할 수 있습니다).
NOTE
머신러닝을 배운 독자라면 전통적인 머신러닝과 심층 신경망을 일반적인 지도 학습(supervised learning) 방식으로 훈련하기 위해서는 레이블 정보가 필요하다는 것을 알 것입니다. 그러나 LLM의 사전 훈련 단계는 이에 해당하지 않습니다. 이 단계에서 LLM은 입력 데이터로부터 레이블을 생성하는 자기 지도 학습(self-supervised learning) 방식을 사용합니다.2
LLM의 첫 번째 훈련 단계를 사전 훈련(pretraining)이라 부릅니다. 이렇게 만들어진 사전 훈련된 LLM을 베이스 모델(base model) 또는 파운데이션 모델(foundation model)이라 부릅니다. 이런 모델의 대표적인 예는 (ChatGPT에서 제공되는 모델의 전신인) GPT-3입니다. 이런 모델은 텍스트를 완성하는 능력이 있습니다. 즉, 사용자가 일부 쓰다 만 문장을 완성시킵니다. 또한 광범위한 훈련 데이터 대신에 몇 개의 샘플을 기반으로 새로운 작업을 수행하는 방법을 배우는 퓨-샷 학습(few-shot learning)을 제한적으로 수행할 수 있습니다.