더북(TheBook)

▼ 표 1-1 GPT-3 LLM의 사전 훈련 데이터셋

데이터셋 이름

데이터셋 설명

토큰 개수

훈련 데이터 비율

CommonCrawl(필터링됨)

웹 크롤(crawl) 데이터

4,100억 개

60%

WebText2

웹 크롤(crawl) 데이터

190억 개

22%

Books1

인터넷 기반 도서 말뭉치

120억 개

8%

Books2

인터넷 기반 도서 말뭉치

550억 개

8%

위키백과

고품질 텍스트

30억 개

3%

표 1-1은 토큰 개수를 보여 줍니다. 토큰은 모델이 텍스트를 읽는 단위입니다. 데이터셋에 있는 토큰 개수는 텍스트에 있는 단어와 구두점 문자 개수와 대체로 동일합니다. 2장에서 텍스트를 토큰으로 변환하는 토큰화(tokenization)에 대해 소개하겠습니다.

핵심 장점은 훈련 데이터셋의 크기와 다양성으로 인해 모델이 언어 구문, 문법, 맥락에 관련된 다양한 작업과 심지어 일반 지식이 필요한 작업도 수행할 수 있다는 것입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.