Key points are not available for this paper at this time.
Les grands modèles de langage (LLM) montrent des capacités solides de résolution de problèmes pour diverses tâches. Cependant, la plupart des agents basés sur les LLM sont conçus comme des solveurs de tâches spécifiques avec une ingénierie de prompts sophistiquée, plutôt que comme des agents capables d'apprendre et d'évoluer à travers les interactions. Ces solveurs de tâches nécessitent des prompts créés manuellement pour informer des règles de la tâche et réguler les comportements du LLM, ce qui les rend intrinsèquement incapables de gérer des scénarios dynamiques complexes, par exemple de grands jeux interactifs. Dans cette optique, nous proposons Agent-Pro : un agent basé sur LLM avec réflexion et optimisation au niveau de la politique, qui peut apprendre une richesse d'expertise à partir d'expériences interactives et élever progressivement sa politique comportementale. Plus précisément, il implique un processus dynamique de génération de croyances et de réflexion pour l'évolution de la politique. Plutôt que la réflexion au niveau des actions, Agent-Pro réfléchit itérativement sur les trajectoires et croyances passées, ajustant ses croyances irrationnelles pour une meilleure politique. De plus, une recherche en profondeur est employée pour l'optimisation de la politique, assurant une amélioration continue des gains de la politique. Agent-Pro est évalué sur deux jeux : Blackjack et Texas Hold'em, surpassant les modèles LLM standards et spécialisés. Nos résultats montrent qu'Agent-Pro peut apprendre et évoluer dans des scènes complexes et dynamiques, ce qui bénéficie également à de nombreuses applications basées sur les LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenqi Zhang
Ke Tang
Hai Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (mar.) ont étudié cette question.
www.synapsesocial.com/papers/68e77797b6db6435876ec0da — DOI: https://doi.org/10.48550/arxiv.2402.17574
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: