February 22, 2024Open Access

Feinabstimmung großer Sprachmodelle für domänenspezifische maschinelle Übersetzung

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte in der maschinellen Übersetzung (MT) erzielt. Ihr Potenzial in der domänenspezifischen MT bleibt jedoch bislang unerforscht. Aktuelle auf LLMs basierende MT-Systeme stehen weiterhin vor mehreren Herausforderungen. Erstens ist bei LLMs mit In-Context-Lernen ihre Effektivität stark von den Eingabeübersetzungsbeispielen abhängig, deren Verarbeitung die Inferenzkosten erhöhen kann. Sie benötigen häufig zusätzliche Nachbearbeitung aufgrund von Übergenerierung. Zweitens erfordern LLMs, die auf domänenspezifischen Daten feinabgestimmt werden, oft hohe Trainingskosten zur Domänenanpassung und können aufgrund von Überanpassung die Zero-Shot-MT-Fähigkeiten der LLMs schwächen. Die genannten Methoden haben Schwierigkeiten, seltene Wörter in Domänentransferszenarien zu übersetzen. Um diese Herausforderungen zu meistern, schlägt dieses Papier eine promptorientierte Feinabstimmungsmethode vor, bezeichnet als LlamaIT, um ein allgemeines LLM effektiv und effizient für domänenspezifische MT-Aufgaben feinabzustimmen. Zunächst erstellen wir einen aufgaben-spezifischen Mix-Domänen-Datensatz, welcher dann zur Feinabstimmung des LLM mittels LoRA verwendet wird. Dies kann die Notwendigkeit von Eingabeübersetzungsbeispielen, Nachbearbeitung oder Überanpassung eliminieren. Durch Zero-Shot-Prompting mit Anweisungen passen wir die MT-Aufgaben zur Inferenzzeit an die Zieldomäne an. Um die MT-Fähigkeit für seltene Wörter weiter zu fördern, erstellen wir neue Prompts durch Einbindung domänenspezifischen zweisprachigen Vokabulars. Wir führen außerdem umfangreiche Experimente sowohl auf öffentlich verfügbaren als auch selbst erstellten Datensätzen durch. Die Ergebnisse zeigen, dass unser LlamaIT die domänenspezifischen MT-Fähigkeiten des LLM signifikant verbessern kann, während die Zero-Shot-MT-Fähigkeiten erhalten bleiben.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiawei Zheng

Hanghai Hong

Xiaoli Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Feinabstimmung großer Sprachmodelle für domänenspezifische maschinelle Übersetzung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study