Key points are not available for this paper at this time.
Nous présentons DeepSeek-Coder-V2, un modèle de langage de code Mixture-of-Experts (MoE) open-source qui atteint des performances comparables à GPT4-Turbo dans les tâches spécifiques au code. Plus précisément, DeepSeek-Coder-V2 est pré-entraîné à partir d'un point de contrôle intermédiaire de DeepSeek-V2 avec 6 trillions de tokens supplémentaires. Grâce à cette poursuite du pré-entraînement, DeepSeek-Coder-V2 améliore substantiellement les capacités de codage et de raisonnement mathématique de DeepSeek-V2, tout en maintenant des performances comparables dans les tâches linguistiques générales. Par rapport à DeepSeek-Coder-33B, DeepSeek-Coder-V2 démontre des avancées significatives dans divers aspects des tâches liées au code, ainsi que dans les capacités de raisonnement et générales. De plus, DeepSeek-Coder-V2 étend son support des langages de programmation de 86 à 338, tout en prolongeant la longueur du contexte de 16K à 128K. Dans les évaluations des benchmarks standards, DeepSeek-Coder-V2 atteint une performance supérieure par rapport aux modèles propriétaires tels que GPT4-Turbo, Claude 3 Opus, et Gemini 1.5 Pro dans les benchmarks de codage et mathématiques.
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI
Qihao Zhu
Daya Guo
Building similarity graph...
Analyzing shared references across papers
Loading...
DeepSeek-AI et al. (lun.) ont étudié cette question.
www.synapsesocial.com/papers/68e64544b6db6435875d7214 — DOI: https://doi.org/10.48550/arxiv.2406.11931
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: