コミュニティ内の最近の研究進展において、大規模言語モデル(LLM)は自律エージェントの創造に大きな関心を呼び起こしています。しかし、現行のプロンプトベースエージェントはしばしば大規模なLLMに大きく依存しています。一方で、ファインチューニング手法は小規模LLMの能力を大幅に強化しますが、ファインチューニングされたエージェントは自己反省や自己改善の可能性に欠けることが多いです。これらの課題に対処するため、我々はタスク計画と自己反省的進化能力の両方を共同で最適化する新規エージェントフレームワークRetroActを提案します。具体的には、模倣学習と強化学習を統合した二段階の共同最適化プロセスを開発し、模倣学習正則化を伴うオフポリシー共同政策勾配最適化アルゴリズムを設計して、エージェントタスクのデータ効率と訓練の安定性を向上させました。RetroActはオープンソースモデルの性能を著しく改善し、クローズドソースLLMへの依存を減らし、ファインチューニングされたエージェントが継続的に学習・進化することを可能にします。さまざまなテスト環境で広範な実験を行い、RetroActがタスク性能と意思決定プロセスにおいて大幅な改善をもたらすことを実証しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Xueyang Feng
Bo Lan
Quanyu Dai
Building similarity graph...
Analyzing shared references across papers
Loading...
Fengら(Mon,)はこの問題を研究した。
www.synapsesocial.com/papers/68ece2abd1bb2827d129729d — DOI: https://doi.org/10.48550/arxiv.2503.01490
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: