더북(TheBook)

DeepSeek-V3

2024년 12월에 출시된 DeepSeek-V3는 이전 모델보다 추론 속도가 크게 향상되었으며, 오픈소스 모델 중에서도 성능이 우수합니다. 6,710억 개의 총 파라미터 중 각 토큰당 370억 개의 파라미터가 활성화되는 MoE 구조를 채택하여 효율적인 추론과 경제적인 훈련을 가능하게 했습니다. 또한 컨텍스트5 길이를 128,000 토큰까지 확장하여 더 긴 문맥을 처리할 수 있습니다. 특히 DeepSeek-V3의 경우, 여러 벤치마크 결과에 따르면 Claude Sonnet 3.5보다도 코딩 성능이 우수하다고 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.