Die Optimierung sowohl großer Sprachmodelle (LLMs) als auch kleiner Sprachmodelle (SLMs) für den realen Einsatz erfordert eine durchdachte Anpassung nach dem Training. Diese Übersicht hebt drei Schlüsselstrategien hervor: Überwachtes Fine-Tuning, Direkte Präferenzoptimierung (DPO) und Online-Verstärkungslernen. Überwachtes Fine-Tuning verfeinert vortrainierte Modelle mit beschrifteten, anweisungsbefolgenden Datensätzen. Dies verbessert die Genauigkeit der Aufgabenbearbeitung und die Steuerbarkeit der Antworten durch die Ausrichtung der Ausgaben an den echten Beispielen. Direkte Präferenzoptimierung (DPO) vereinfacht das präferenzbasierte Training, indem menschliches Feedback direkt in das Belohnungssignal integriert wird, was die Notwendigkeit komplexer Belohnungsmodelle oder instabiler Politikgradienten eliminiert. DPO bietet eine stabilere und effizientere Alternative zum traditionellen Reinforcement Learning from Human Feedback (RLHF). Online-Verstärkungslernen führt kontinuierliche Aktualisierungen basierend auf Echtzeit-Nutzerinteraktionen und dynamisch generierten Daten ein. Dies verbessert die Anpassungsfähigkeit und ermöglicht es den Modellen, besser auf sich ändernde Nutzerbedürfnisse und Domänenverschiebungen zu reagieren. Neue Methoden wie das Online-DPO und die Gruppen-Belohnungs-Politik-Optimierung übertreffen andere Ansätze sowohl bei präzisen (z. B. mathematisches Denken) als auch bei offenen (z. B. Befolgung von Anweisungen) Aufgaben. Zusammen ermöglichen diese Methoden—Überwachtes Fine-Tuning, Direkte Präferenzoptimierung und Online-Verstärkungslernen—eine effektivere, effizientere und besser steuerbare Anpassung von LLMs und SLMs. Durch die Ausrichtung des Modellverhaltens an der Nutzerintention und die gleichzeitige Adressierung von Verzerrungen und Trainingsineffizienzen verbessern sie die Nützlichkeit von Sprachmodellen in realen Anwendungen erheblich.
Building similarity graph...
Analyzing shared references across papers
Loading...
Cassel Scott-Emuakpor
Building similarity graph...
Analyzing shared references across papers
Loading...
Cassel Scott-Emuakpor (Mon,) untersuchte diese Fragestellung.
www.synapsesocial.com/papers/68c1ac0154b1d3bfb60e47ca — DOI: https://doi.org/10.36227/techrxiv.175427207.75884899/v1