▼ 표 1-1 GPT-3 LLM의 사전 훈련 데이터셋
|
데이터셋 이름 |
데이터셋 설명 |
토큰 개수 |
훈련 데이터 비율 |
|
CommonCrawl(필터링됨) |
웹 크롤(crawl) 데이터 |
4,100억 개 |
60% |
|
WebText2 |
웹 크롤(crawl) 데이터 |
190억 개 |
22% |
|
Books1 |
인터넷 기반 도서 말뭉치 |
120억 개 |
8% |
|
Books2 |
인터넷 기반 도서 말뭉치 |
550억 개 |
8% |
|
위키백과 |
고품질 텍스트 |
30억 개 |
3% |
표 1-1은 토큰 개수를 보여 줍니다. 토큰은 모델이 텍스트를 읽는 단위입니다. 데이터셋에 있는 토큰 개수는 텍스트에 있는 단어와 구두점 문자 개수와 대체로 동일합니다. 2장에서 텍스트를 토큰으로 변환하는 토큰화(tokenization)에 대해 소개하겠습니다.
핵심 장점은 훈련 데이터셋의 크기와 다양성으로 인해 모델이 언어 구문, 문법, 맥락에 관련된 다양한 작업과 심지어 일반 지식이 필요한 작업도 수행할 수 있다는 것입니다.