Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben als intelligente Agenten in interaktiven Entscheidungsfindungsaufgaben Potenzial gezeigt. Traditionelle Ansätze basieren oft auf sorgfältig gestalteten Prompts, hochwertigen Beispielen oder zusätzlichen Belohnungsmodellen für In-Context-Lernen, überwachtes Feintuning oder RLHF. Verstärkendes Lernen (RL) stellt eine dynamische Alternative dar, bei der LLMs direkt mit aufgabenspezifischen Umgebungen interagieren, um diese Abhängigkeiten zu überwinden. Dennoch gibt es bedeutende Herausforderungen: 1) Instabilität aufgrund des exponentiell großen Aktionsraums, der erforscht werden muss; 2) Schwierigkeiten bei der Zuweisung von Token-Ebene-Anerkennung auf Basis von Aktions-Ebene-Belohnungssignalen, was zu einem Konflikt zwischen der Maximierung der Belohnungen und der genauen Modellierung von Korpusdaten führt. Als Antwort auf diese Herausforderungen stellen wir Entropy-Regularized Token-level Policy Optimization (ETPO) vor, eine RL-Methode mit Entropieergänzung, die speziell zur Optimierung von LLMs auf Token-Ebene entwickelt wurde. Im Zentrum von ETPO steht unser neuartiges Soft-Bellman-Update pro Token, das den RL-Prozess mit den Prinzipien der Sprachmodellierung in Einklang bringt. Diese Methodik zerlegt das Q-Funktions-Update von einer groben Aktions-Ebenen-Sicht zu einer detaillierteren Token-Ebenen-Perspektive, unterstützt durch theoretischen Beweis der Optimierungskonsistenz. Entscheidend ist, dass diese Zerlegung die Zeitkomplexität bei der Aktionserkundung auf lineares Niveau reduziert. Wir bewerten die Wirksamkeit von ETPO in einer simulierten Umgebung, die die Generierung von Data-Science-Code als eine Reihe von mehrstufigen interaktiven Aufgaben modelliert; die Ergebnisse zeigen, dass ETPO eine effektive Leistungsverbesserung beim CodeLlama-7B-Modell erzielt und eine Variante der PPO-Basislinie übertrifft, die aus RLHF abgeleitet ist. Dies unterstreicht ETPOs Potenzial als robuste Methode zur Verfeinerung der interaktiven Entscheidungsfähigkeiten von LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Muning Wen
Cheng Deng
Jun Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wen et al. (Fr.,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e7b285b6db64358770d4ff — DOI: https://doi.org/10.48550/arxiv.2402.06700
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: