Dieses Papier untersucht eine entscheidende Designentscheidung in der Praxis des massiv mehrsprachigen kontinuierlichen Vortrainings – die Einbeziehung von Paralleldaten. Konkret analysieren wir den Einfluss bilingualer Übersetzungsdaten auf die massiv mehrsprachige Sprachanpassung der Llama3-Modellfamilie für 500 Sprachen. Zu diesem Zweck erstellen wir das MaLA-Bilingual-Übersetzungskorpus, das Daten von mehr als 2.500 Sprachpaaren enthält. Anschließend entwickeln wir die EMMA-500 Llama 3 Suite bestehend aus vier massiv mehrsprachigen Modellen – kontinuierlich vortrainiert auf Basis der Llama 3 Basismodelle mit umfangreichen vielfältigen Datensets bis zu 671B Token – und untersuchen den Effekt des kontinuierlichen Vortrainings mit oder ohne bilinguale Übersetzungsdaten. Eine umfassende Evaluation über 7 Aufgaben und 12 Benchmarks zeigt, dass bilinguale Daten den Sprachtransfer und die Leistung verbessern, insbesondere bei ressourcenarmen Sprachen. Wir veröffentlichen das MaLA-Korpus, die EMMA-500 Llama 3 Suite-Artefakte, den Code und die Modellgenerierungen als Open Source.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shaoxiong Ji
Zihao Li
Jouni Paavola
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji et al. (Sat,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e6d7971ffa7aa7d63d176e — DOI: https://doi.org/10.48550/arxiv.2506.00469
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: