What type of study is this?

This is a Experimental Study study.

October 10, 2025Open Access

EvoEngineer : Maîtriser l'évolution automatisée du code noyau CUDA avec de grands modèles linguistiques

Key Points

EvoEngineer atteint un gain maximal de vitesse de 36,75 fois parmi les opérations par rapport aux noyaux PyTorch.
La méthode obtient un gain médian moyen de vitesse de 2,72 fois par rapport aux noyaux CUDA de référence.
En implémentant le cadre, de nombreuses expériences sur 91 noyaux CUDA réels valident la performance et la correction.
Le taux de validité du code d'EvoEngineer est de 69,8 %, soulignant son efficacité comparée aux méthodes existantes.

Abstract

L'optimisation des noyaux CUDA est devenue un goulot d'étranglement critique pour la performance de l'IA, car l'efficacité de l'entraînement et de l'inférence en apprentissage profond dépend directement de noyaux GPU hautement optimisés. Malgré la promesse des grands modèles linguistiques (LLMs) pour automatiser l'optimisation des noyaux, ce domaine souffre d'un écosystème fragmenté d'approches isolées et incomparables avec des formulations de problèmes peu claires. De plus, les méthodes générales d'évolution du code basées sur LLM ne peuvent pas satisfaire aux exigences strictes de correction de l'optimisation des noyaux CUDA. Nous abordons ces défis fondamentaux en formalisant d'abord l'optimisation des noyaux CUDA comme une tâche d'optimisation de code avec un objectif, des contraintes et des métriques d'évaluation clairs. Nous établissons ensuite le premier cadre systématique d'évolution de code basé sur LLM, EvoEngineer, qui fournit des orientations pour concevoir et adapter des stratégies d'optimisation afin d'atteindre un équilibre entre performance et correction. Enfin, nous implémentons un système d'optimisation des noyaux basé sur ce cadre et menons de nombreuses expériences sur 91 noyaux CUDA réels. Nos résultats démontrent qu'EvoEngineer atteint un équilibre principiel entre performance et correction, avec un gain de vitesse médian moyen le plus élevé de 2,72 par rapport aux noyaux CUDA de référence et un taux de validité du code de 69,8 %, surpassant les méthodes existantes sur ces deux dimensions. Notre méthode atteint un gain maximal de 36,75 parmi toutes les opérations par rapport aux noyaux PyTorch et offre le gain le plus élevé sur 28 (56,0 %) des 50 opérations qui obtiennent une accélération supérieure à 2.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ping Guo

Chenyu Zhu

Siyuan Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

EvoEngineer : Maîtriser l'évolution automatisée du code noyau CUDA avec de grands modèles linguistiques

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider