What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

Neudenken der Distillation großer Sprachmodelle: Eine Perspektive des eingeschränkten Markov-Entscheidungsprozesses

Key Points

Neue Methode verbessert aufgabenspezifische Belohnungen bei der Distillation großer Sprachmodelle und kontrolliert dabei die Divergenz zum Lehrermodell.
Experimente zeigen verbesserte Erfüllungsraten von Constraints und Schlussfolgerungsfähigkeiten im Vergleich zu bestehenden Baselines.
Vorgeschlagenes Framework nutzt eingeschränktes, zustandserweitertes Reinforcement Learning ohne übermäßigen Rechenaufwand.
Theoretische Grundlagen unterstützen praktische Effizienz in ressourcenbegrenzten Umgebungen für belohnungsbewusste Distillation.

Abstract

Wir stellen einen neuartigen Ansatz zur Distillation großer Sprachmodelle (LLM) vor, indem wir diese als ein Problem des eingeschränkten Reinforcement Learnings formulieren. Während aktuelle Arbeiten begonnen haben, aufgabenspezifische Belohnungen in Distillationsprozesse zu integrieren, basieren bestehende Methoden meist auf ad-hoc Gewichtung der Belohnungen. Wir schlagen einen prinzipienbasierten Optimierungsrahmen vor, der aufgabenspezifische Belohnungen maximiert und gleichzeitig die Divergenz zum Lehrermodell unter einem festgelegten Schwellenwert hält. Unser Ansatz adaptiert eingeschränktes, zustandserweitertes Reinforcement Learning an die Distillationssituation und führt eine modifizierte Belohnungsfunktion ein, die theoretische Garantien für die Einhaltung von Constraints bietet, ohne dass während des Einsatzes eine Zustandserweiterung oder der Zugriff auf das Lehrermodell erforderlich sind sowie ohne den Rechenaufwand dualer Lagrange-Methoden. Durch umfangreiche Experimente zu mathematischen Denkaufgaben zeigen wir, dass unsere Methode bessere Constraint-Erfüllungsraten und bessere Schlussfolgerungen erzielt als Soft-Lagrangian-Relaxations-Baselines und dabei eine wettbewerbsfähige Aufgabenleistung beibehält. Unser Rahmenwerk bietet eine theoretisch fundierte und praktisch effiziente Lösung für belohnungsbewusste Distillation in ressourcenbegrenzten Umgebungen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Matthieu Zimmer

Xiaotong Ji

Tu N. Nguyen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Neudenken der Distillation großer Sprachmodelle: Eine Perspektive des eingeschränkten Markov-Entscheidungsprozesses

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider