May 7, 2024Open Access

DeepSeek-V2: Ein starkes, wirtschaftliches und effizientes Mixture-of-Experts-Sprachmodell

Key Points

Key points are not available for this paper at this time.

Abstract

Wir präsentieren DeepSeek-V2, ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das sich durch wirtschaftliches Training und effiziente Inferenz auszeichnet. Es umfasst insgesamt 236 Milliarden Parameter, von denen 21 Milliarden für jedes Token aktiviert werden, und unterstützt eine Kontextlänge von 128K Token. DeepSeek-V2 verwendet innovative Architekturen wie Multi-head Latent Attention (MLA) und DeepSeekMoE. MLA gewährleistet eine effiziente Inferenz durch signifikante Komprimierung des Key-Value (KV) Caches in einen latenten Vektor, während DeepSeekMoE das Training leistungsstarker Modelle zu wirtschaftlichen Kosten durch sparse Berechnung ermöglicht. Im Vergleich zu DeepSeek 67B erzielt DeepSeek-V2 deutlich bessere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und steigert den maximalen Generierungsdurchsatz auf das 5,76-fache. Wir trainieren DeepSeek-V2 vorab auf einem hochwertigen und multiquellen Corpus mit insgesamt 8,1 Billionen Token und führen anschließend Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) durch, um sein volles Potenzial freizusetzen. Die Bewertungsergebnisse zeigen, dass DeepSeek-V2 und seine Chat-Versionen, selbst mit nur 21 Milliarden aktivierten Parametern, weiterhin Spitzenleistungen unter Open-Source-Modellen erzielen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

DeepSeek-AI

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DeepSeek-V2: Ein starkes, wirtschaftliches und effizientes Mixture-of-Experts-Sprachmodell

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider