February 9, 2024Open Access

Entropieregulierte Token-Ebene Politikoptimierung für Große Sprachmodelle

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben als intelligente Agenten in interaktiven Entscheidungsfindungsaufgaben Potenzial gezeigt. Traditionelle Ansätze basieren oft auf sorgfältig gestalteten Prompts, hochwertigen Beispielen oder zusätzlichen Belohnungsmodellen für In-Context-Lernen, überwachtes Feintuning oder RLHF. Verstärkendes Lernen (RL) stellt eine dynamische Alternative dar, bei der LLMs direkt mit aufgabenspezifischen Umgebungen interagieren, um diese Abhängigkeiten zu überwinden. Dennoch gibt es bedeutende Herausforderungen: 1) Instabilität aufgrund des exponentiell großen Aktionsraums, der erforscht werden muss; 2) Schwierigkeiten bei der Zuweisung von Token-Ebene-Anerkennung auf Basis von Aktions-Ebene-Belohnungssignalen, was zu einem Konflikt zwischen der Maximierung der Belohnungen und der genauen Modellierung von Korpusdaten führt. Als Antwort auf diese Herausforderungen stellen wir Entropy-Regularized Token-level Policy Optimization (ETPO) vor, eine RL-Methode mit Entropieergänzung, die speziell zur Optimierung von LLMs auf Token-Ebene entwickelt wurde. Im Zentrum von ETPO steht unser neuartiges Soft-Bellman-Update pro Token, das den RL-Prozess mit den Prinzipien der Sprachmodellierung in Einklang bringt. Diese Methodik zerlegt das Q-Funktions-Update von einer groben Aktions-Ebenen-Sicht zu einer detaillierteren Token-Ebenen-Perspektive, unterstützt durch theoretischen Beweis der Optimierungskonsistenz. Entscheidend ist, dass diese Zerlegung die Zeitkomplexität bei der Aktionserkundung auf lineares Niveau reduziert. Wir bewerten die Wirksamkeit von ETPO in einer simulierten Umgebung, die die Generierung von Data-Science-Code als eine Reihe von mehrstufigen interaktiven Aufgaben modelliert; die Ergebnisse zeigen, dass ETPO eine effektive Leistungsverbesserung beim CodeLlama-7B-Modell erzielt und eine Variante der PPO-Basislinie übertrifft, die aus RLHF abgeleitet ist. Dies unterstreicht ETPOs Potenzial als robuste Methode zur Verfeinerung der interaktiven Entscheidungsfähigkeiten von LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Muning Wen

Cheng Deng

Jun Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Entropieregulierte Token-Ebene Politikoptimierung für Große Sprachmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider