밑바닥부터 만들면서 배우는 LLM: 1.5 대규모 데이터셋 활용하기

SECTION 1.5 대규모 데이터셋 활용하기

인기 있는 GPT 및 BERT 유사 모델의 대규모 훈련 데이터셋은 수십억 개의 단어가 들어 있는 다양하고 광범위한 텍스트 말뭉치로 구성됩니다. 여기에는 다양한 주제와 자연어, 컴퓨터 언어가 포함되어 있습니다. 구체적인 예로 표 1-1은 ChatGPT 초기 버전의 베이스 모델로 사용된 GPT-3를 사전 훈련하는 데 사용된 데이터셋을 보여 줍니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.