What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

共政策勾配最適化による後行言語エージェントの改善

Key Points

RetroActフレームワークは言語エージェントの性能を大幅に向上させ、継続的学習を可能にする。
共同最適化プロセスは模倣学習と強化学習を組み合わせて能力を向上させる。
広範な実験により、環境全体での意思決定およびタスク性能の大幅な改善を示した。
この手法はクローズドソースモデルへの依存を減らしつつ、訓練の安定性とデータ効率を向上させる。

Abstract

コミュニティ内の最近の研究進展において、大規模言語モデル（LLM）は自律エージェントの創造に大きな関心を呼び起こしています。しかし、現行のプロンプトベースエージェントはしばしば大規模なLLMに大きく依存しています。一方で、ファインチューニング手法は小規模LLMの能力を大幅に強化しますが、ファインチューニングされたエージェントは自己反省や自己改善の可能性に欠けることが多いです。これらの課題に対処するため、我々はタスク計画と自己反省的進化能力の両方を共同で最適化する新規エージェントフレームワークRetroActを提案します。具体的には、模倣学習と強化学習を統合した二段階の共同最適化プロセスを開発し、模倣学習正則化を伴うオフポリシー共同政策勾配最適化アルゴリズムを設計して、エージェントタスクのデータ効率と訓練の安定性を向上させました。RetroActはオープンソースモデルの性能を著しく改善し、クローズドソースLLMへの依存を減らし、ファインチューニングされたエージェントが継続的に学習・進化することを可能にします。さまざまなテスト環境で広範な実験を行い、RetroActがタスク性能と意思決定プロセスにおいて大幅な改善をもたらすことを実証しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xueyang Feng

Bo Lan

Quanyu Dai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

共政策勾配最適化による後行言語エージェントの改善

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider