Große Schlussfolgermodelle (LRMs) sind darin geübt, explizite, schrittweise Schlussfolgerungssequenzen zu erzeugen, bevor sie finale Antworten liefern. Allerdings kann eine solch detaillierte Schlussfolgerung erhebliche Rechenressourcen beanspruchen und Latenz verursachen, insbesondere bei einfachen Problemen. Um dieses Problem des Überdenkens zu adressieren, untersuchen wir, wie LRMs mit adaptiven Denkfähigkeiten ausgestattet werden können: Sie sollen dynamisch entscheiden können, ob sie sich auf explizite Schlussfolgerungen einlassen, basierend auf der Komplexität des Problems. Aufbauend auf R1-ähnlichen destillierten Modellen beobachten wir, dass das Einfügen einer einfachen Auslassung („...“) in die Eingabeaufforderung stochastisch einen Denk- oder Nicht-Denk-Modus auslösen kann, was eine latente Steuerbarkeit im Schlussfolgerungsverhalten offenbart. Unter Ausnutzung dieser Eigenschaft schlagen wir AutoThink vor, ein mehrstufiges Verstärkungslern-Framework, das Schlussfolgerungsstrategien durch stufenweise Belohnungsformung schrittweise optimiert. AutoThink lernt, explizite Schlussfolgerungen nur bei Bedarf einzusetzen, während es für einfachere Aufgaben standardmäßig prägnante Antworten liefert. Experimente auf fünf gängigen mathematischen Benchmarks zeigen, dass AutoThink günstige Genauigkeits-Effizienz-Abwägungen im Vergleich zu aktuellen Prompting- und RL-basierten Pruning-Methoden erzielt. Es lässt sich nahtlos in jedes R1-ähnliche Modell integrieren, einschließlich destillierter und weiter feinjustierter Varianten. Bemerkenswert ist, dass AutoThink die relative Genauigkeit um 6,4 Prozent erhöht und gleichzeitig die Token-Nutzung um 52 Prozent beim DeepSeek-R1-Distill-Qwen-1.5B reduziert, womit ein skalierbares und adaptives Schlussfolgerungsparadigma für LRMs etabliert wird. Projektseite: https://github.com/ScienceOne-AI/AutoThink.
Building similarity graph...
Analyzing shared references across papers
Loading...
Songjun Tu
Jiahao Lin
Qichao Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Tu et al. (Fri,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac361c8 — DOI: https://doi.org/10.48550/arxiv.2505.10832
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: