• 원본 트랜스포머 구조는 텍스트를 해석하는 인코더와 텍스트를 생성하는 디코더로 구성됩니다.
• GPT-3와 ChatGPT 같이 텍스트를 생성하고 지시를 수행하기 위한 LLM은 디코더 모듈로만 구현되므로 구조가 더 단순합니다.
• 수십억 개의 단어로 구성된 대규모 데이터셋은 LLM을 사전 훈련하는 데 필수적입니다.
• GPT와 같은 모델을 위한 사전 훈련 작업이 문장에 있는 다음 단어를 예측하는 것이지만, 이런 LLM은 텍스트를 분류, 번역, 요약할 수 있는 창발적 속성을 보여 줍니다.
• LLM을 사전 훈련하여 만든 파운데이션 모델을 다양한 후속 작업에 맞게 효율적으로 미세 튜닝할 수 있습니다.
• 사용자 정의 데이터셋에 미세 튜닝된 LLM은 특정 작업에서 범용 LLM의 성능을 능가할 수 있습니다.