밑바닥부터 만들면서 배우는 LLM: 워크북 1.5 주관식 정답

1.5 대규모 데이터셋 활용하기

1. 이런 데이터셋은 방대합니다. 수십억 개의 단어로 구성되며 다양한 주제와 언어를 포괄합니다. 모델이 다양한 텍스트에 노출되어 언어 구문, 의미, 문맥을 학습할 수 있도록 구성됩니다.

2. 훈련 데이터의 크기와 다양성 덕분에 모델이 범용 지식을 필요로 하는 작업을 포함해 다양한 작업을 잘 수행할 수 있습니다. 모델이 실전 언어의 복잡성이 드러난 텍스트를 이해하고 생성하는 방법을 학습합니다.

3. 토큰화는 텍스트를 토큰이라 부르는 개별 단위로 분할하는 과정입니다. 토큰은 모델이 읽고 처리하는 기본 구성 요소입니다. 이런 토큰은 단어, 구두점, 또는 의미 있는 텍스트 단위일 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.