What type of study is this?

This is a Experimental Study study.

September 23, 2025Open Access

Effizientes RL zur Optimierung von Gesprächsergebnissen mit einem auf LLM basierenden Tutor

Key Points

Langfristige Ergebnisse verbessert durch Optimierung des Tutorverhaltens basierend auf latenten Zustandsrepräsentationen der Schüler.
Experimente zeigen Verbesserungen der Tutoring-Effektivität, insbesondere in Multi-Turn-Dialogsettings.
Leichtgewichtiges Modelldesign minimiert Rechenressourcen im Vergleich zu vorherigen end-to-end Trainingsmethoden.
Der Einsatz latenter Zustände ermöglicht eine bessere Ausrichtung an den langfristigen Lernzielen der Schüler im Fach Mathematik.

Abstract

Große Sprachmodelle (LLMs), die auf bestehenden Reinforcement Learning mit menschlichem Feedback (RLHF) Frameworks basieren, optimieren typischerweise Antworten basierend auf unmittelbaren, turn-basierten menschlichen Präferenzen. Dieser Ansatz stößt jedoch in Multi-Turn-Dialogsettings, wie etwa Online-Mathematiktutorien, an seine Grenzen. Wir schlagen eine Methode vor, um LLM-basierte Tutoren zu verbessern, indem die Dialoghistorie durch eine nieder-dimensionale latente Zustandsrepräsentation eines Studenten dargestellt wird und eine langfristige Policy optimiert wird, um auf Basis des latenten Zustands hochrangige Aktionen zu bestimmen. Ziel ist es, das Verhalten des Tutors besser mit dem langfristigen Ziel zu vereinbaren, den Studenten zum eigenständigen Lösen eines Ziel-Matheproblems zu führen. Unser Modell ist leichtgewichtig und benötigt weniger Rechenressourcen als frühere Arbeiten, die die Tutor-Policy end-to-end trainierten, um direkt die nächste Tutor-Äußerung auszugeben. Die Ergebnisse unserer Experimente zeigen, dass diese Modifikationen zu verbesserten langfristigen Ergebnissen im Vergleich zum Prompting in LLM-simulierten Tutorias-Aufgaben führen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hyunji Alex Nam

Omer Gottesman

Amy Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Effizientes RL zur Optimierung von Gesprächsergebnissen mit einem auf LLM basierenden Tutor

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study