DeepSeek-V3
2024년 12월에 출시된 DeepSeek-V3는 이전 모델보다 추론 속도가 크게 향상되었으며, 오픈소스 모델 중에서도 성능이 우수합니다. 6,710억 개의 총 파라미터 중 각 토큰당 370억 개의 파라미터가 활성화되는 MoE 구조를 채택하여 효율적인 추론과 경제적인 훈련을 가능하게 했습니다. 또한 컨텍스트5 길이를 128,000 토큰까지 확장하여 더 긴 문맥을 처리할 수 있습니다. 특히 DeepSeek-V3의 경우, 여러 벤치마크 결과에 따르면 Claude Sonnet 3.5보다도 코딩 성능이 우수하다고 합니다.