What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Adaptation Massivement Multilingue des Grands Modèles de Langage Utilisant des Données de Traduction Bilingues

Key Points

Les données de traduction bilingue améliorent le transfert linguistique pour les langues à faibles ressources, augmentant les performances sur différentes tâches.
L'évaluation sur 7 tâches et 12 benchmarks montre des gains de performance constants avec l'intégration des données bilingues.
L'étude construit le corpus MaLA et les modèles EMMA-500, démontrant un impact significatif sur l'adaptation linguistique multilingue.
Le développement de modèles avec 671B tokens issus de mélanges de données diversifiés montre un potentiel pour amplifier les capacités linguistiques.

Abstract

Cet article étudie une décision de conception cruciale dans la pratique du pré-entraînement continu massivement multilingue -- l'inclusion de données parallèles. Plus précisément, nous analysons l'impact des données de traduction bilingue pour l'adaptation massivement multilingue des modèles de la famille Llama3 à 500 langues. À cette fin, nous construisons le corpus de traduction bilingue MaLA, contenant des données issues de plus de 2 500 paires de langues. Par la suite, nous développons la suite EMMA-500 Llama 3 composée de quatre modèles massivement multilingues -- pré-entraînés en continu à partir des modèles de base de la famille Llama 3, sur des mélanges de données divers jusqu'à 671B tokens -- et explorons l'effet du pré-entraînement continu avec ou sans données de traduction bilingue. Une évaluation complète sur 7 tâches et 12 benchmarks démontre que les données bilingues tendent à améliorer le transfert de langue et les performances, en particulier pour les langues à faibles ressources. Nous rendons open source le corpus MaLA, les artefacts de la suite EMMA-500 Llama 3, le code, et les générations des modèles.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shaoxiong Ji

Zihao Li

Jouni Paavola

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Adaptation Massivement Multilingue des Grands Modèles de Langage Utilisant des Données de Traduction Bilingues

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider