Les grands modèles de langage (LLM) ont récemment démontré de fortes capacités à générer du code de machine learning (ML), permettant la construction de pipelines de bout en bout à partir d'instructions en langage naturel. Cependant, les benchmarks existants pour la génération de code ML sont principalement limités à l'anglais, négligeant la nature globale et multilingue de la recherche et de la pratique en ML. Pour combler cette lacune, nous présentons ML2B, le premier benchmark d'évaluation de la génération de code ML multilingue. ML2B se compose de 30 compétitions Kaggle traduites en 13 langues naturelles, couvrant les types de données tabulaires, textuelles et d'images, avec des métadonnées structurées et des traductions validées par des réviseurs humains. Pour l'évaluation, nous utilisons AIDE, un cadre automatisé d'évaluation de bout en bout des pipelines de science des données, et fournissons des analyses sur la performance des modèles cross-lingues. Nos résultats révèlent une dégradation substantielle de la performance de 15 à 45 % sur les tâches non anglophones, mettant en lumière des défis critiques dans l'apprentissage de représentations multilingues pour la génération de code. Le benchmark, le cadre d'évaluation et les résultats complets sont disponibles via notre dépôt GitHub pour faciliter la recherche future sur la génération multilingue de code ML : https://github.com/enaix/ml2b.
Building similarity graph...
Analyzing shared references across papers
Loading...
Е. В. Трофимова
Zosia Shamina
Maria Selifanova
Building similarity graph...
Analyzing shared references across papers
Loading...
Трофимова et al. (ven.,) ont étudié cette question.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac3639f — DOI: https://doi.org/10.48550/arxiv.2509.22768
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: