더북(TheBook)

 

SECTION 3.4 DeepSeek 모델

최근 각광받는 DeepSeek-V3 및 DeepSeek-R1 외에도 다양한 모델이 있습니다. 각 모델들에 대해 자세히 알아봅시다.

 

DeepSeek-Coder

2023년 11월에 출시된 이 모델은 코딩 작업에 최적화되어 있으며, 코드 자동 완성 및 코드 생성과 같은 기능을 제공합니다. 1.3B부터 33B까지 다양한 규모로 제공되며, 각 모델은 2조 개의 토큰으로 사전 학습되었습니다. 학습 데이터는 코딩에 특화된 만큼, 87%의 소스 코드와 13%의 자연어(영어 및 중국어)로 구성되어 있습니다. 특히 이 모델은 Llama2 아키텍처를 기반으로 구축되었으며, 오픈소스로 공개되어 개발자들이 자유롭게 활용할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.