밑바닥부터 만들면서 배우는 LLM: 1.5 대규모 데이터셋 활용하기 -4

이런 모델의 사전 훈련 특성으로 인해 매우 다양한 후속 작업을 위해 미세 튜닝할 수 있습니다. 그래서 베이스 모델 또는 파운데이션 모델이라 부릅니다. LLM을 사전 훈련하려면 상당한 자원이 필요하며 비용이 많이 듭니다. 예를 들어 GPT-3 사전 훈련 비용은 클라우드 컴퓨팅 비용 기준으로 약 460만 달러로 추정됩니다(https://mng.bz/VxEW).

좋은 소식은 사전 훈련된 LLM이 오픈 소스로 많이 공개되어 있다는 것입니다. 이를 범용 도구로 사용해 훈련 데이터에 없는 텍스트를 작성하고, 검색하고, 편집할 수 있습니다. 또한 특정 작업을 위해 이런 LLM을 비교적 작은 데이터셋으로 미세 튜닝할 수 있습니다. 이를 통해 필요한 계산 자원을 절감하고 성능을 향상할 수 있습니다.

이 책에서는 교육적인 목적으로 사전 훈련을 위한 코드를 작성하여 LLM을 사전 훈련하겠습니다. 모든 계산은 사용자의 하드웨어에서 실행 가능합니다. 사전 훈련된 코드를 구현한 후에 공개된 모델 가중치를 직접 구현한 모델에 로드하는 방법을 배우겠습니다. 이렇게 하면 LLM을 미세 튜닝할 때 비용이 많이 드는 사전 훈련 단계를 건너뛸 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.