이 장에서 다룰 내용
• 대규모 언어 모델(large language model, LLM)의 기본 개념을 고수준에서 설명합니다.
• LLM 시대를 이끌고 있는 트랜스포머 구조에 대해 이해합니다.
• 밑바닥에서부터 LLM을 구축하기 위한 계획을 세웁니다.
오픈AI의 ChatGPT와 같은 대규모 언어 모델은 지난 몇 년간 발전한 심층 신경망 모델(deep neural network)입니다. 이 모델들은 자연어 처리(natural language processing, NLP) 분야에 새로운 시대를 열었습니다. LLM이 등장하기 전에는 전통적인 방법으로 스팸 메일 감지 같은 분류 작업이나 간단한 패턴 인식 작업을 잘 수행했습니다. 이런 패턴 인식은 수동 규칙이나 간단한 모델로 감지할 수 있습니다. 하지만 복잡한 이해력과 생성 능력이 필요한 언어 작업, 예를 들면 상세한 지시를 분석하고, 문맥을 고려해서 분석을 수행하고, 일관성 있고 맥락에 맞는 텍스트를 생성하는 일에서는 일반적으로 성능이 좋지 못했습니다. 이전 세대의 언어 모델은 일련의 키워드 목록으로부터 이메일을 작성할 수 없었는데, 이는 현대 LLM에서는 간단한 작업입니다.