Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte in der maschinellen Übersetzung (MT) erzielt. Ihr Potenzial in der domänenspezifischen MT bleibt jedoch bislang unerforscht. Aktuelle auf LLMs basierende MT-Systeme stehen weiterhin vor mehreren Herausforderungen. Erstens ist bei LLMs mit In-Context-Lernen ihre Effektivität stark von den Eingabeübersetzungsbeispielen abhängig, deren Verarbeitung die Inferenzkosten erhöhen kann. Sie benötigen häufig zusätzliche Nachbearbeitung aufgrund von Übergenerierung. Zweitens erfordern LLMs, die auf domänenspezifischen Daten feinabgestimmt werden, oft hohe Trainingskosten zur Domänenanpassung und können aufgrund von Überanpassung die Zero-Shot-MT-Fähigkeiten der LLMs schwächen. Die genannten Methoden haben Schwierigkeiten, seltene Wörter in Domänentransferszenarien zu übersetzen. Um diese Herausforderungen zu meistern, schlägt dieses Papier eine promptorientierte Feinabstimmungsmethode vor, bezeichnet als LlamaIT, um ein allgemeines LLM effektiv und effizient für domänenspezifische MT-Aufgaben feinabzustimmen. Zunächst erstellen wir einen aufgaben-spezifischen Mix-Domänen-Datensatz, welcher dann zur Feinabstimmung des LLM mittels LoRA verwendet wird. Dies kann die Notwendigkeit von Eingabeübersetzungsbeispielen, Nachbearbeitung oder Überanpassung eliminieren. Durch Zero-Shot-Prompting mit Anweisungen passen wir die MT-Aufgaben zur Inferenzzeit an die Zieldomäne an. Um die MT-Fähigkeit für seltene Wörter weiter zu fördern, erstellen wir neue Prompts durch Einbindung domänenspezifischen zweisprachigen Vokabulars. Wir führen außerdem umfangreiche Experimente sowohl auf öffentlich verfügbaren als auch selbst erstellten Datensätzen durch. Die Ergebnisse zeigen, dass unser LlamaIT die domänenspezifischen MT-Fähigkeiten des LLM signifikant verbessern kann, während die Zero-Shot-MT-Fähigkeiten erhalten bleiben.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiawei Zheng
Hanghai Hong
Xiaoli Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zheng et al. (Thu,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e780b7b6db6435876f376a — DOI: https://doi.org/10.48550/arxiv.2402.15061