Wir stellen einen neuartigen Ansatz zur Distillation großer Sprachmodelle (LLM) vor, indem wir diese als ein Problem des eingeschränkten Reinforcement Learnings formulieren. Während aktuelle Arbeiten begonnen haben, aufgabenspezifische Belohnungen in Distillationsprozesse zu integrieren, basieren bestehende Methoden meist auf ad-hoc Gewichtung der Belohnungen. Wir schlagen einen prinzipienbasierten Optimierungsrahmen vor, der aufgabenspezifische Belohnungen maximiert und gleichzeitig die Divergenz zum Lehrermodell unter einem festgelegten Schwellenwert hält. Unser Ansatz adaptiert eingeschränktes, zustandserweitertes Reinforcement Learning an die Distillationssituation und führt eine modifizierte Belohnungsfunktion ein, die theoretische Garantien für die Einhaltung von Constraints bietet, ohne dass während des Einsatzes eine Zustandserweiterung oder der Zugriff auf das Lehrermodell erforderlich sind sowie ohne den Rechenaufwand dualer Lagrange-Methoden. Durch umfangreiche Experimente zu mathematischen Denkaufgaben zeigen wir, dass unsere Methode bessere Constraint-Erfüllungsraten und bessere Schlussfolgerungen erzielt als Soft-Lagrangian-Relaxations-Baselines und dabei eine wettbewerbsfähige Aufgabenleistung beibehält. Unser Rahmenwerk bietet eine theoretisch fundierte und praktisch effiziente Lösung für belohnungsbewusste Distillation in ressourcenbegrenzten Umgebungen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Matthieu Zimmer
Xiaotong Ji
Tu N. Nguyen
Building similarity graph...
Analyzing shared references across papers
Loading...
Zimmer et al. (Fr,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac364a5 — DOI: https://doi.org/10.48550/arxiv.2509.22921
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: