더북(TheBook)

1.7 대규모 언어 모델 만들기

1. 세 단계는 LLM 구조와 데이터 전처리 과정 구현하기, LLM을 사전 훈련하여 파운데이션 모델 만들기, 특정 작업을 위해 파운데이션 모델을 미세 튜닝하기입니다.

 

2. 트랜스포머 구조는 한 단어씩 출력을 생성할 때 LLM이 입력 시퀀스 전체를 선택적으로 참조할 수 있는 어텐션 메커니즘을 활용합니다.

 

3. GPT-3과 같은 LLM은 대규모 텍스트 말뭉치에서 사전 훈련됩니다. 이 방식은 시퀀스에 있는 다음 단어를 예측하며 이 단어를 레이블로 사용합니다.

 

4. GPT 유사 모델을 위한 주요 사전 훈련 작업은 다음 단어 예측이지만, 이런 모델에는 창발적 속성이 있습니다. 명시적으로 특정 작업에서 훈련하지 않아도 분류, 번역, 요약과 같은 작업을 수행할 수 있다는 의미입니다.

 

5. 사용자 데이터셋에서 사전 훈련된 LLM을 미세 튜닝하면 특정 작업에서 전문성을 가지며 범용 LLM의 성능을 뛰어넘을 수 있습니다.

 

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.