밑바닥부터 만들면서 배우는 LLM: 1.5 대규모 데이터셋 활용하기 -3

참고

GPT-3 데이터셋의 세부 정보

표 1-1은 GPT-3에 사용된 데이터셋을 보여 줍니다. 반올림 오차를 빼고 이 표의 비율 값을 모두 더하면 100%가 됩니다. 토큰 개수 열을 모두 더하면 4,990억 개가 되지만 모델은 3,000억 개의 토큰에서만 훈련되었습니다. GPT-3 논문에는 4,990억 개의 토큰을 모두 사용하지 않은 이유가 언급되어 있지는 않습니다.

CommonCrawl 데이터셋의 크기를 생각해 보면 4,100억 개의 토큰으로 이루어져 있어 570GB의 저장 공간이 필요합니다. 이와 달리 메타(Meta)의 Llama 같은 GPT-3 이후의 모델들은 Arxiv 연구 논문(92GB)과 스택익스체인지(StackExchange)의 코드 관련 Q&A(78GB) 같은 추가 데이터를 포함시켜 훈련 범위를 확장했습니다.

GPT-3 논문의 저자들은 훈련 데이터셋을 공유하지 않았지만 공개적으로 사용 가능한 유사한 데이터셋은 Dolma: An Open Corpus of Three Trillion Tokens for LLM Pretraining Research by Soldaini et al. 2024 (https://arxiv.org/abs/2402.00159)입니다. 하지만 이 데이터셋에는 저작권이 있는 콘텐츠가 있을 수 있으므로 정확한 사용 조건은 각자의 사용 사례와 국가에 따라 다를 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.