더북(TheBook)

DeepSeek-LLM

DeepSeek-LLM은 2023년 11월 29일에 공개된 거대 언어 모델 시리즈로, 7B(70억) 및 67B(670억) 파라미터를 가진 ‘Base’와 ‘Chat’ 버전으로 제공됩니다. 이 모델은 당시 이용 가능했던 다른 거대 언어 모델들과 경쟁하기 위해 개발되었으며, 특히 DeepSeek는 자사의 DeepSeek-LLM이 Llama2와 같은 오픈소스 LLM보다 더 뛰어난 벤치마크 결과를 기록했다고 발표했습니다.

 

DeepSeek-MoE

2024년 1월에 출시된 이 모델은 160억(16B) 개의 파라미터를 갖고 있으며, MoE 구조를 적용해 각 토큰 처리 시 전체 6,710억 개의 파라미터 중 370억 개만 활성화하여 연산 효율을 높였습니다. 또한, 필요한 전문가 네트워크만 선택적으로 활용함으로써 모델 성능을 유지하면서도 비용과 계산량을 절감하는 효과를 제공합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.