What type of study is this?

September 10, 2025Open Access

Maximierung skalierbarer KI: Effiziente Anpassung von Sprachmodellen mittels Fine-Tuning, Direkter Präferenzoptimierung und Online-Verstärkung

Key Points

Überwachtes Fine-Tuning verbessert signifikant die Aufgabenpräzision und Steuerbarkeit von Antworten in Sprachmodellen.
Direkte Präferenzoptimierung integriert menschliches Feedback direkt und eliminiert instabile Politikgradienten.
Online-Verstärkungslernen ermöglicht kontinuierliche Aktualisierungen basierend auf Echtzeit-Nutzerinteraktionen und verbessert die Anpassungsfähigkeit.
Neue Methoden übertreffen traditionelle Ansätze und unterstreichen die Bedeutung der Nutzerintention bei der Optimierung der Nützlichkeit von Sprachmodellen.

Abstract

Die Optimierung sowohl großer Sprachmodelle (LLMs) als auch kleiner Sprachmodelle (SLMs) für den realen Einsatz erfordert eine durchdachte Anpassung nach dem Training. Diese Übersicht hebt drei Schlüsselstrategien hervor: Überwachtes Fine-Tuning, Direkte Präferenzoptimierung (DPO) und Online-Verstärkungslernen. Überwachtes Fine-Tuning verfeinert vortrainierte Modelle mit beschrifteten, anweisungsbefolgenden Datensätzen. Dies verbessert die Genauigkeit der Aufgabenbearbeitung und die Steuerbarkeit der Antworten durch die Ausrichtung der Ausgaben an den echten Beispielen. Direkte Präferenzoptimierung (DPO) vereinfacht das präferenzbasierte Training, indem menschliches Feedback direkt in das Belohnungssignal integriert wird, was die Notwendigkeit komplexer Belohnungsmodelle oder instabiler Politikgradienten eliminiert. DPO bietet eine stabilere und effizientere Alternative zum traditionellen Reinforcement Learning from Human Feedback (RLHF). Online-Verstärkungslernen führt kontinuierliche Aktualisierungen basierend auf Echtzeit-Nutzerinteraktionen und dynamisch generierten Daten ein. Dies verbessert die Anpassungsfähigkeit und ermöglicht es den Modellen, besser auf sich ändernde Nutzerbedürfnisse und Domänenverschiebungen zu reagieren. Neue Methoden wie das Online-DPO und die Gruppen-Belohnungs-Politik-Optimierung übertreffen andere Ansätze sowohl bei präzisen (z. B. mathematisches Denken) als auch bei offenen (z. B. Befolgung von Anweisungen) Aufgaben. Zusammen ermöglichen diese Methoden—Überwachtes Fine-Tuning, Direkte Präferenzoptimierung und Online-Verstärkungslernen—eine effektivere, effizientere und besser steuerbare Anpassung von LLMs und SLMs. Durch die Ausrichtung des Modellverhaltens an der Nutzerintention und die gleichzeitige Adressierung von Verzerrungen und Trainingsineffizienzen verbessern sie die Nützlichkeit von Sprachmodellen in realen Anwendungen erheblich.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Cassel Scott-Emuakpor

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Maximierung skalierbarer KI: Effiziente Anpassung von Sprachmodellen mittels Fine-Tuning, Direkter Präferenzoptimierung und Online-Verstärkung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study