밑바닥부터 만들면서 배우는 LLM: 2장. 텍스트 데이터 다루기

이 장에서 다룰 내용

• 대규모 언어 모델 훈련을 위한 텍스트를 준비합니다.

• 텍스트를 단어와 부분단어(subword)인 토큰으로 나눕니다.

• 고급 텍스트 토큰화 방법인 바이트 페어 인코딩(byte pair encoding)을 배웁니다.

• 슬라이딩 윈도(sliding window) 방식으로 훈련 데이터를 샘플링(sampling)합니다.

• 대규모 언어 모델에 주입하기 위해 토큰을 벡터로 변환합니다.

지금까지 대규모 언어 모델(LLM)의 일반적인 구조를 다루었고, 대용량 텍스트에서 어떻게 사전 훈련되는지 배웠습니다. 구체적으로 트랜스포머 디코더 기반 LLM에 초점을 맞추었습니다. 트랜스포머는 ChatGPT에서 사용되는 모델 및 GPT와 유사한 LLM의 기반이 됩니다.

사전 훈련 단계에서 LLM은 텍스트를 한 번에 한 단어씩 처리합니다. 다음 단어 예측 작업으로 수백만에서 수십억 개의 파라미터를 가진 LLM을 훈련하면 놀라운 능력을 가진 모델을 만들 수 있습니다. 이런 모델을 추가적으로 미세 튜닝하여 일반적인 지시를 따르거나 특정 작업을 수행하도록 만들 수 있습니다. 하지만 그림 2-1에 나와 있듯이 LLM을 구현하고 훈련하기 전에 훈련 데이터셋을 준비해야 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.