Key points are not available for this paper at this time.
Wir präsentieren DeepSeek-V2, ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das sich durch wirtschaftliches Training und effiziente Inferenz auszeichnet. Es umfasst insgesamt 236 Milliarden Parameter, von denen 21 Milliarden für jedes Token aktiviert werden, und unterstützt eine Kontextlänge von 128K Token. DeepSeek-V2 verwendet innovative Architekturen wie Multi-head Latent Attention (MLA) und DeepSeekMoE. MLA gewährleistet eine effiziente Inferenz durch signifikante Komprimierung des Key-Value (KV) Caches in einen latenten Vektor, während DeepSeekMoE das Training leistungsstarker Modelle zu wirtschaftlichen Kosten durch sparse Berechnung ermöglicht. Im Vergleich zu DeepSeek 67B erzielt DeepSeek-V2 deutlich bessere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und steigert den maximalen Generierungsdurchsatz auf das 5,76-fache. Wir trainieren DeepSeek-V2 vorab auf einem hochwertigen und multiquellen Corpus mit insgesamt 8,1 Billionen Token und führen anschließend Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) durch, um sein volles Potenzial freizusetzen. Die Bewertungsergebnisse zeigen, dass DeepSeek-V2 und seine Chat-Versionen, selbst mit nur 21 Milliarden aktivierten Parametern, weiterhin Spitzenleistungen unter Open-Source-Modellen erzielen.
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI (Tue,) hat diese Frage untersucht.
www.synapsesocial.com/papers/68e6b28ab6db6435876338c0 — DOI: https://doi.org/10.48550/arxiv.2405.04434
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: