June 17, 2024Open Access

DeepSeek-Coder-V2 : Briser la barrière des modèles propriétaires en intelligence du code

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons DeepSeek-Coder-V2, un modèle de langage de code Mixture-of-Experts (MoE) open-source qui atteint des performances comparables à GPT4-Turbo dans les tâches spécifiques au code. Plus précisément, DeepSeek-Coder-V2 est pré-entraîné à partir d'un point de contrôle intermédiaire de DeepSeek-V2 avec 6 trillions de tokens supplémentaires. Grâce à cette poursuite du pré-entraînement, DeepSeek-Coder-V2 améliore substantiellement les capacités de codage et de raisonnement mathématique de DeepSeek-V2, tout en maintenant des performances comparables dans les tâches linguistiques générales. Par rapport à DeepSeek-Coder-33B, DeepSeek-Coder-V2 démontre des avancées significatives dans divers aspects des tâches liées au code, ainsi que dans les capacités de raisonnement et générales. De plus, DeepSeek-Coder-V2 étend son support des langages de programmation de 86 à 338, tout en prolongeant la longueur du contexte de 16K à 128K. Dans les évaluations des benchmarks standards, DeepSeek-Coder-V2 atteint une performance supérieure par rapport aux modèles propriétaires tels que GPT4-Turbo, Claude 3 Opus, et Gemini 1.5 Pro dans les benchmarks de codage et mathématiques.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

DeepSeek-AI

Qihao Zhu

Daya Guo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DeepSeek-Coder-V2 : Briser la barrière des modèles propriétaires en intelligence du code

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider