밑바닥부터 만들면서 배우는 LLM: 1.5 대규모 데이터셋 활용하기 -2

▼ 표 1-1 GPT-3 LLM의 사전 훈련 데이터셋

표 1-1은 토큰 개수를 보여 줍니다. 토큰은 모델이 텍스트를 읽는 단위입니다. 데이터셋에 있는 토큰 개수는 텍스트에 있는 단어와 구두점 문자 개수와 대체로 동일합니다. 2장에서 텍스트를 토큰으로 변환하는 토큰화(tokenization)에 대해 소개하겠습니다.

핵심 장점은 훈련 데이터셋의 크기와 다양성으로 인해 모델이 언어 구문, 문법, 맥락에 관련된 다양한 작업과 심지어 일반 지식이 필요한 작업도 수행할 수 있다는 것입니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.