Große Sprachmodelle (LLMs), die auf bestehenden Reinforcement Learning mit menschlichem Feedback (RLHF) Frameworks basieren, optimieren typischerweise Antworten basierend auf unmittelbaren, turn-basierten menschlichen Präferenzen. Dieser Ansatz stößt jedoch in Multi-Turn-Dialogsettings, wie etwa Online-Mathematiktutorien, an seine Grenzen. Wir schlagen eine Methode vor, um LLM-basierte Tutoren zu verbessern, indem die Dialoghistorie durch eine nieder-dimensionale latente Zustandsrepräsentation eines Studenten dargestellt wird und eine langfristige Policy optimiert wird, um auf Basis des latenten Zustands hochrangige Aktionen zu bestimmen. Ziel ist es, das Verhalten des Tutors besser mit dem langfristigen Ziel zu vereinbaren, den Studenten zum eigenständigen Lösen eines Ziel-Matheproblems zu führen. Unser Modell ist leichtgewichtig und benötigt weniger Rechenressourcen als frühere Arbeiten, die die Tutor-Policy end-to-end trainierten, um direkt die nächste Tutor-Äußerung auszugeben. Die Ergebnisse unserer Experimente zeigen, dass diese Modifikationen zu verbesserten langfristigen Ergebnissen im Vergleich zum Prompting in LLM-simulierten Tutorias-Aufgaben führen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hyunji Alex Nam
Omer Gottesman
Amy Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Nam et al. (Tue,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68d473bb31b076d99fa6cbb8 — DOI: https://doi.org/10.48550/arxiv.2507.16252