What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Massiv mehrsprachige Anpassung großer Sprachmodelle unter Verwendung bilingualer Übersetzungsdaten

Key Points

Bilinguale Übersetzungsdaten verbessern den Sprachtransfer bei ressourcenarmen Sprachen und steigern die Leistung über verschiedene Aufgaben hinweg.
Die Evaluation über 7 Aufgaben und 12 Benchmarks zeigt konsistente Leistungsverbesserungen mit der Integration bilingualer Daten.
Die Studie erstellt das MaLA-Korpus und die EMMA-500-Modelle und demonstriert einen signifikanten Einfluss auf die mehrsprachige Sprachanpassung.
Die Entwicklung von Modellen mit 671B Token aus vielfältigen Datenmischungen zeigt vielversprechende Fortschritte bei der Erweiterung der Sprachfähigkeiten.

Abstract

Dieses Papier untersucht eine entscheidende Designentscheidung in der Praxis des massiv mehrsprachigen kontinuierlichen Vortrainings – die Einbeziehung von Paralleldaten. Konkret analysieren wir den Einfluss bilingualer Übersetzungsdaten auf die massiv mehrsprachige Sprachanpassung der Llama3-Modellfamilie für 500 Sprachen. Zu diesem Zweck erstellen wir das MaLA-Bilingual-Übersetzungskorpus, das Daten von mehr als 2.500 Sprachpaaren enthält. Anschließend entwickeln wir die EMMA-500 Llama 3 Suite bestehend aus vier massiv mehrsprachigen Modellen – kontinuierlich vortrainiert auf Basis der Llama 3 Basismodelle mit umfangreichen vielfältigen Datensets bis zu 671B Token – und untersuchen den Effekt des kontinuierlichen Vortrainings mit oder ohne bilinguale Übersetzungsdaten. Eine umfassende Evaluation über 7 Aufgaben und 12 Benchmarks zeigt, dass bilinguale Daten den Sprachtransfer und die Leistung verbessern, insbesondere bei ressourcenarmen Sprachen. Wir veröffentlichen das MaLA-Korpus, die EMMA-500 Llama 3 Suite-Artefakte, den Code und die Modellgenerierungen als Open Source.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shaoxiong Ji

Zihao Li

Jouni Paavola

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Massiv mehrsprachige Anpassung großer Sprachmodelle unter Verwendung bilingualer Übersetzungsdaten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider