What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

SetupBench：ソフトウェア開発環境のブートストラップ能力を評価するためのソフトウェアエージェント

Key Points

環境ブートストラップタスクの成功率は大きく変動し、リポジトリ設定は38.9%から57.4%の範囲である。
OpenHandsエージェントの評価では、ローカルデータベース設定において20.0%から53.3%の成功率の課題が示された。
体系的な失敗には、開発ツールの不完全なインストールや非永続的な変更が含まれ、ワークフローの複雑化を招いている。
調査結果は、エージェントの行動の38～89%が最適な人間の行動と比較して不要であることを示している。

Abstract

最新の大規模言語モデル（LLM）エージェントは実世界のソフトウェアタスクに対するエンドツーエンド支援を約束しますが、既存のベンチマークはほぼ完全にすべての依存関係が事前にインストールされた環境でLLMエージェントを評価しています。このギャップを埋めるために、我々はSetupBenchを導入します。SetupBenchは93のインスタンスからなるベンチマークで、環境ブートストラップ能力に特化しています。すなわち、裸のLinuxサンドボックスから始めて、エージェントはパッケージのインストール、依存関係の競合解決、データベースの初期化、バックグラウンドサービスの設定を行わなければなりません。タスクは7つの言語エコシステム、5つのデータベースエンジン、そしてマルチサービスオーケストレーションシナリオに及び、それぞれ自然言語の問題文と決定論的な成功コマンドが付属しています。最先端のコーディングエージェントであるOpenHandsの評価を通じて、タスクカテゴリ全体で成功率が低いことが判明し、特にリポジトリセットアップ（38.9-57.4%）やローカルデータベースの構成（20.0-53.3%）において課題が明らかになりました。分析により、開発ツールの不完全なインストール、誤ったタスク制約の錯覚、エージェントと人間の協調ワークフローを破壊する非永続的な環境変更といった体系的な失敗モードが明らかになりました。エージェントの探索戦略には大きな非効率性があり、最適な人間の行動と比較して38-89%のアクションが不要と判明しました。これらの結果は、現行エージェントの実用的な環境ブートストラップ能力にギャップがあることを浮き彫りにしています。この重要かつ十分に評価されていない能力に注目することで、SetupBenchはエンドツーエンドの実世界タスクを解決する次世代ソフトウェア開発エージェントのための厳密な評価基準を提供します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arushi Arora

Jinu Jang

Roshanak Zilouchian Moghaddam

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SetupBench：ソフトウェア開発環境のブートストラップ能力を評価するためのソフトウェアエージェント

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider