Key points are not available for this paper at this time.
우리는 총 6710억 개의 파라미터를 갖고 각 토큰마다 370억 개가 활성화되는 강력한 전문가 혼합(Mixture-of-Experts, MoE) 언어 모델인 DeepSeek-V3를 제시합니다. 효율적인 추론과 비용 효과적인 학습을 달성하기 위해 DeepSeek-V3는 DeepSeek-V2에서 철저히 검증된 멀티헤드 잠재 주의(Multi-head Latent Attention, MLA)와 DeepSeekMoE 아키텍처를 채택했습니다. 더 나아가 DeepSeek-V3는 부하 균형을 위한 보조 손실 없는 전략을 개척하고, 더 강력한 성능을 위해 다중 토큰 예측 학습 목표를 설정합니다. 우리는 DeepSeek-V3를 14.8조 개의 다양하고 고품질 토큰으로 사전 학습한 뒤, 감독학습 미세조정(Supervised Fine-Tuning)과 강화학습 단계를 수행하여 모델의 역량을 최대한 활용했습니다. 종합적인 평가 결과, DeepSeek-V3는 다른 오픈소스 모델들을 능가하며, 선도적인 폐쇄형 모델들과 비교해도 동등한 성능을 달성합니다. 뛰어난 성능에도 불구하고, DeepSeek-V3는 전체 학습에 단지 2.788M H800 GPU 시간을 필요로 합니다. 또한 학습 과정은 매우 안정적이며, 전체 학습 과정에서 회복 불가능한 손실 급증이나 롤백이 전혀 발생하지 않았습니다. 모델 체크포인트는 https://github.com/deepseek-ai/DeepSeek-V3 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI
Aixin Liu
Bei Feng
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI 등(Fri,) 이 질문을 연구했습니다.
www.synapsesocial.com/papers/69d8af35d2f7327e70ae3eff — DOI: https://doi.org/10.48550/arxiv.2412.19437