L'optimisation des noyaux CUDA est devenue un goulot d'étranglement critique pour la performance de l'IA, car l'efficacité de l'entraînement et de l'inférence en apprentissage profond dépend directement de noyaux GPU hautement optimisés. Malgré la promesse des grands modèles linguistiques (LLMs) pour automatiser l'optimisation des noyaux, ce domaine souffre d'un écosystème fragmenté d'approches isolées et incomparables avec des formulations de problèmes peu claires. De plus, les méthodes générales d'évolution du code basées sur LLM ne peuvent pas satisfaire aux exigences strictes de correction de l'optimisation des noyaux CUDA. Nous abordons ces défis fondamentaux en formalisant d'abord l'optimisation des noyaux CUDA comme une tâche d'optimisation de code avec un objectif, des contraintes et des métriques d'évaluation clairs. Nous établissons ensuite le premier cadre systématique d'évolution de code basé sur LLM, EvoEngineer, qui fournit des orientations pour concevoir et adapter des stratégies d'optimisation afin d'atteindre un équilibre entre performance et correction. Enfin, nous implémentons un système d'optimisation des noyaux basé sur ce cadre et menons de nombreuses expériences sur 91 noyaux CUDA réels. Nos résultats démontrent qu'EvoEngineer atteint un équilibre principiel entre performance et correction, avec un gain de vitesse médian moyen le plus élevé de 2,72 par rapport aux noyaux CUDA de référence et un taux de validité du code de 69,8 %, surpassant les méthodes existantes sur ces deux dimensions. Notre méthode atteint un gain maximal de 36,75 parmi toutes les opérations par rapport aux noyaux PyTorch et offre le gain le plus élevé sur 28 (56,0 %) des 50 opérations qui obtiennent une accélération supérieure à 2.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ping Guo
Chenyu Zhu
Siyuan Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (Samedi) ont étudié cette question.
www.synapsesocial.com/papers/68e865117ef2f04ca37e4dff — DOI: https://doi.org/10.48550/arxiv.2510.03760
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: