Cet article étudie une décision de conception cruciale dans la pratique du pré-entraînement continu massivement multilingue -- l'inclusion de données parallèles. Plus précisément, nous analysons l'impact des données de traduction bilingue pour l'adaptation massivement multilingue des modèles de la famille Llama3 à 500 langues. À cette fin, nous construisons le corpus de traduction bilingue MaLA, contenant des données issues de plus de 2 500 paires de langues. Par la suite, nous développons la suite EMMA-500 Llama 3 composée de quatre modèles massivement multilingues -- pré-entraînés en continu à partir des modèles de base de la famille Llama 3, sur des mélanges de données divers jusqu'à 671B tokens -- et explorons l'effet du pré-entraînement continu avec ou sans données de traduction bilingue. Une évaluation complète sur 7 tâches et 12 benchmarks démontre que les données bilingues tendent à améliorer le transfert de langue et les performances, en particulier pour les langues à faibles ressources. Nous rendons open source le corpus MaLA, les artefacts de la suite EMMA-500 Llama 3, le code, et les générations des modèles.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shaoxiong Ji
Zihao Li
Jouni Paavola
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/68e6d7971ffa7aa7d63d176e — DOI: https://doi.org/10.48550/arxiv.2506.00469
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: