Key points are not available for this paper at this time.
我々は、経済的なトレーニングと効率的な推論を特徴とする強力なMixture-of-Experts(MoE)言語モデル、DeepSeek-V2を発表する。合計236Bのパラメータから構成され、各トークンに対して21Bが活性化され、128Kトークンのコンテキスト長をサポートする。DeepSeek-V2は、Multi-head Latent Attention(MLA)やDeepSeekMoEなどの革新的なアーキテクチャを採用している。MLAはKey-Value(KV)キャッシュを潜在ベクトルへ大幅に圧縮することで効率的な推論を保証し、DeepSeekMoEはスパース計算を通じて経済的なコストで強力なモデルをトレーニング可能にする。DeepSeek 67Bと比較して、DeepSeek-V2は著しく優れた性能を達成しつつ、トレーニングコストを42.5%削減し、KVキャッシュを93.3%減らし、最大生成スループットを5.76倍に向上させた。8.1Tトークンの高品質かつ多様なコーパスで事前学習を行い、さらに教師あり微調整(SFT)と強化学習(RL)を実施してその潜在能力を最大限に引き出している。評価結果は、活性化パラメータが21Bのみでも、DeepSeek-V2およびそのチャット版がオープンソースモデルの中でトップクラスの性能を示すことを示している。
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI(Tue,)はこの問題を研究した。
www.synapsesocial.com/papers/68e6b28ab6db6435876338c0 — DOI: https://doi.org/10.48550/arxiv.2405.04434
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: