February 27, 2024Open Access

Agent-Pro : Apprendre à évoluer via la réflexion et l'optimisation au niveau de la politique

Key Points

Key points are not available for this paper at this time.

Abstract

Les grands modèles de langage (LLM) montrent des capacités solides de résolution de problèmes pour diverses tâches. Cependant, la plupart des agents basés sur les LLM sont conçus comme des solveurs de tâches spécifiques avec une ingénierie de prompts sophistiquée, plutôt que comme des agents capables d'apprendre et d'évoluer à travers les interactions. Ces solveurs de tâches nécessitent des prompts créés manuellement pour informer des règles de la tâche et réguler les comportements du LLM, ce qui les rend intrinsèquement incapables de gérer des scénarios dynamiques complexes, par exemple de grands jeux interactifs. Dans cette optique, nous proposons Agent-Pro : un agent basé sur LLM avec réflexion et optimisation au niveau de la politique, qui peut apprendre une richesse d'expertise à partir d'expériences interactives et élever progressivement sa politique comportementale. Plus précisément, il implique un processus dynamique de génération de croyances et de réflexion pour l'évolution de la politique. Plutôt que la réflexion au niveau des actions, Agent-Pro réfléchit itérativement sur les trajectoires et croyances passées, ajustant ses croyances irrationnelles pour une meilleure politique. De plus, une recherche en profondeur est employée pour l'optimisation de la politique, assurant une amélioration continue des gains de la politique. Agent-Pro est évalué sur deux jeux : Blackjack et Texas Hold'em, surpassant les modèles LLM standards et spécialisés. Nos résultats montrent qu'Agent-Pro peut apprendre et évoluer dans des scènes complexes et dynamiques, ce qui bénéficie également à de nombreuses applications basées sur les LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenqi Zhang

Ke Tang

Hai Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Agent-Pro : Apprendre à évoluer via la réflexion et l'optimisation au niveau de la politique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider