Jüngste Studien haben gezeigt, dass Large Language Models (LLMs) starke mathematische Schlussfolgerungsfähigkeiten besitzen, aber auf hunderte Milliarden Parameter angewiesen sind. Um die Herausforderung der schlechten Schlussfolgerung in Small Language Models (SLMs) zu bewältigen, nutzen bestehende Methoden typischerweise LLMs, um große Mengen an Daten für das Auswendiglernen im Training zu generieren. In der Psychologie entsprechen sie dem System-1-Denken, das Probleme schnell basierend auf Erfahrung und Intuition löst. Menschliches Lernen erfordert jedoch auch System-2-Denken, bei dem Wissen zunächst erworben und dann durch Übung verstärkt wird. Inspiriert von diesen zwei unterschiedlichen Denkmodi schlagen wir eine neuartige Methode basierend auf der Multi-LoRA-Interaktion für mathematische Reasoning-Distillation (LoRID) vor. Zunächst geben wir die Frage und das Reasoning jeder Probe in ein LLM ein, um wissensverbesserte Datensätze zu erstellen. Anschließend trainieren wir einen LoRA-Block auf dem Schüler-Modell als Intuitiven Schlußfolgerer (IR), der direkt Chain-of-Thoughts für Problemlösungen generiert. Um dann System-2-Denken nachzuahmen, trainieren wir jeweils den Knowledge Generator (KG) und den Deep Reasoner (DR). Ersterer gibt nach Empfang der Aufgaben nur Wissen aus, während letzterer dieses Wissen nutzt, um Schlussfolgerungen zu ziehen. Schließlich, um der Zufälligkeit bei der Generierung von IR und DR zu begegnen, prüfen wir, ob ihre Ausgaben übereinstimmen; falls nicht, muss der Inferenzprozess iteriert werden. Dieser Schritt kann die mathematischen Schlussfolgerungsfähigkeiten von SLMs durch wechselseitiges Feedback verbessern. Experimentelle Ergebnisse zeigen, dass LoRID eine Spitzenleistung erzielt, besonders auf dem GSM8K-Datensatz, wo es das zweitbeste Verfahren um 2,3 %, 16,1 %, 2,4 %, 12,3 % bzw. 1,8 % Genauigkeit bei den fünf Basismodellen übertrifft.
Building similarity graph...
Analyzing shared references across papers
Loading...
X. Li
Jiajun Liu
Peng Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68d7cc6eeebfec0fc5238edd — DOI: https://doi.org/10.48550/arxiv.2508.13037