What type of study is this?

This is a Experimental Study study.

September 27, 2025Open Access

Können große Modelle Schüler-Modelle lehren, mathematische Probleme wie Menschen zu lösen? Eine Reasoning-Distillation-Methode mittels Multi-LoRA-Interaktion

Key Points

LoRID verbessert die mathematischen Schlussfolgerungsfähigkeiten kleiner Sprachmodelle durch wechselseitiges Feedback.
Diese Methode erreichte auf dem GSM8K-Datensatz eine um 2,3 % höhere Genauigkeit als der zweitbeste Ansatz.
Das Multi-LoRA-Interaktionsmodell erzeugt sowohl intuitive als auch wissensbasierte Schlussfolgerungsausgaben.
Die Einbindung von System-1- und System-2-Denken trägt zu besseren Schlussfolgerungen bei der Problemlösung bei.

Abstract

Jüngste Studien haben gezeigt, dass Large Language Models (LLMs) starke mathematische Schlussfolgerungsfähigkeiten besitzen, aber auf hunderte Milliarden Parameter angewiesen sind. Um die Herausforderung der schlechten Schlussfolgerung in Small Language Models (SLMs) zu bewältigen, nutzen bestehende Methoden typischerweise LLMs, um große Mengen an Daten für das Auswendiglernen im Training zu generieren. In der Psychologie entsprechen sie dem System-1-Denken, das Probleme schnell basierend auf Erfahrung und Intuition löst. Menschliches Lernen erfordert jedoch auch System-2-Denken, bei dem Wissen zunächst erworben und dann durch Übung verstärkt wird. Inspiriert von diesen zwei unterschiedlichen Denkmodi schlagen wir eine neuartige Methode basierend auf der Multi-LoRA-Interaktion für mathematische Reasoning-Distillation (LoRID) vor. Zunächst geben wir die Frage und das Reasoning jeder Probe in ein LLM ein, um wissensverbesserte Datensätze zu erstellen. Anschließend trainieren wir einen LoRA-Block auf dem Schüler-Modell als Intuitiven Schlußfolgerer (IR), der direkt Chain-of-Thoughts für Problemlösungen generiert. Um dann System-2-Denken nachzuahmen, trainieren wir jeweils den Knowledge Generator (KG) und den Deep Reasoner (DR). Ersterer gibt nach Empfang der Aufgaben nur Wissen aus, während letzterer dieses Wissen nutzt, um Schlussfolgerungen zu ziehen. Schließlich, um der Zufälligkeit bei der Generierung von IR und DR zu begegnen, prüfen wir, ob ihre Ausgaben übereinstimmen; falls nicht, muss der Inferenzprozess iteriert werden. Dieser Schritt kann die mathematischen Schlussfolgerungsfähigkeiten von SLMs durch wechselseitiges Feedback verbessern. Experimentelle Ergebnisse zeigen, dass LoRID eine Spitzenleistung erzielt, besonders auf dem GSM8K-Datensatz, wo es das zweitbeste Verfahren um 2,3 %, 16,1 %, 2,4 %, 12,3 % bzw. 1,8 % Genauigkeit bei den fünf Basismodellen übertrifft.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

X. Li

Jiajun Liu

Peng Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Können große Modelle Schüler-Modelle lehren, mathematische Probleme wie Menschen zu lösen? Eine Reasoning-Distillation-Methode mittels Multi-LoRA-Interaktion

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study