最新の大規模言語モデル(LLM)エージェントは実世界のソフトウェアタスクに対するエンドツーエンド支援を約束しますが、既存のベンチマークはほぼ完全にすべての依存関係が事前にインストールされた環境でLLMエージェントを評価しています。このギャップを埋めるために、我々はSetupBenchを導入します。SetupBenchは93のインスタンスからなるベンチマークで、環境ブートストラップ能力に特化しています。すなわち、裸のLinuxサンドボックスから始めて、エージェントはパッケージのインストール、依存関係の競合解決、データベースの初期化、バックグラウンドサービスの設定を行わなければなりません。タスクは7つの言語エコシステム、5つのデータベースエンジン、そしてマルチサービスオーケストレーションシナリオに及び、それぞれ自然言語の問題文と決定論的な成功コマンドが付属しています。最先端のコーディングエージェントであるOpenHandsの評価を通じて、タスクカテゴリ全体で成功率が低いことが判明し、特にリポジトリセットアップ(38.9-57.4%)やローカルデータベースの構成(20.0-53.3%)において課題が明らかになりました。分析により、開発ツールの不完全なインストール、誤ったタスク制約の錯覚、エージェントと人間の協調ワークフローを破壊する非永続的な環境変更といった体系的な失敗モードが明らかになりました。エージェントの探索戦略には大きな非効率性があり、最適な人間の行動と比較して38-89%のアクションが不要と判明しました。これらの結果は、現行エージェントの実用的な環境ブートストラップ能力にギャップがあることを浮き彫りにしています。この重要かつ十分に評価されていない能力に注目することで、SetupBenchはエンドツーエンドの実世界タスクを解決する次世代ソフトウェア開発エージェントのための厳密な評価基準を提供します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Arushi Arora
Jinu Jang
Roshanak Zilouchian Moghaddam
Building similarity graph...
Analyzing shared references across papers
Loading...
Aroraら(Fri,)はこの問題を研究した。
www.synapsesocial.com/papers/68de5d9c83cbc991d0a202db — DOI: https://doi.org/10.48550/arxiv.2507.09063
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: