What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

Lernen, wann man denken sollte: Anpassungsfähiges Schlussfolgern in R1-ähnlichen Modellen durch mehrstufiges Verstärkungslernen

Key Points

AutoThink lernt, wann explizites Schlussfolgern eingesetzt werden soll, wodurch Verarbeitungszeit reduziert und Effizienz gesteigert wird.
Experimente zeigten eine 6,4%ige Verbesserung der Genauigkeit und eine 52%ige Reduktion des Tokenverbrauchs bei Deep-Learning-Aufgaben.
Diese Methode lässt sich leicht in R1-ähnliche Modelle integrieren, einschließlich destillierter und feinjustierter Varianten.
Der Ansatz demonstriert im Vergleich zu bestehenden Methoden im Schlussfolgern ein signifikantes Genauigkeits-Effizienz-Verhältnis.

Abstract

Große Schlussfolgermodelle (LRMs) sind darin geübt, explizite, schrittweise Schlussfolgerungssequenzen zu erzeugen, bevor sie finale Antworten liefern. Allerdings kann eine solch detaillierte Schlussfolgerung erhebliche Rechenressourcen beanspruchen und Latenz verursachen, insbesondere bei einfachen Problemen. Um dieses Problem des Überdenkens zu adressieren, untersuchen wir, wie LRMs mit adaptiven Denkfähigkeiten ausgestattet werden können: Sie sollen dynamisch entscheiden können, ob sie sich auf explizite Schlussfolgerungen einlassen, basierend auf der Komplexität des Problems. Aufbauend auf R1-ähnlichen destillierten Modellen beobachten wir, dass das Einfügen einer einfachen Auslassung („...“) in die Eingabeaufforderung stochastisch einen Denk- oder Nicht-Denk-Modus auslösen kann, was eine latente Steuerbarkeit im Schlussfolgerungsverhalten offenbart. Unter Ausnutzung dieser Eigenschaft schlagen wir AutoThink vor, ein mehrstufiges Verstärkungslern-Framework, das Schlussfolgerungsstrategien durch stufenweise Belohnungsformung schrittweise optimiert. AutoThink lernt, explizite Schlussfolgerungen nur bei Bedarf einzusetzen, während es für einfachere Aufgaben standardmäßig prägnante Antworten liefert. Experimente auf fünf gängigen mathematischen Benchmarks zeigen, dass AutoThink günstige Genauigkeits-Effizienz-Abwägungen im Vergleich zu aktuellen Prompting- und RL-basierten Pruning-Methoden erzielt. Es lässt sich nahtlos in jedes R1-ähnliche Modell integrieren, einschließlich destillierter und weiter feinjustierter Varianten. Bemerkenswert ist, dass AutoThink die relative Genauigkeit um 6,4 Prozent erhöht und gleichzeitig die Token-Nutzung um 52 Prozent beim DeepSeek-R1-Distill-Qwen-1.5B reduziert, womit ein skalierbares und adaptives Schlussfolgerungsparadigma für LRMs etabliert wird. Projektseite: https://github.com/ScienceOne-AI/AutoThink.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Songjun Tu

Jiahao Lin

Qichao Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Lernen, wann man denken sollte: Anpassungsfähiges Schlussfolgern in R1-ähnlichen Modellen durch mehrstufiges Verstärkungslernen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider