What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Breakpoint: Skalierbare Bewertung des systemweiten Denkens bei LLM-Codeagenten

Key Points

Breakpoint kann skalierbare Code-Reparaturaufgaben generieren und ermöglicht die Bewertung systemweiten Denkens.
Bei mehr als 900 generierten Aufgaben liegen die Erfolgsraten moderner Modelle zwischen 55 % und 0 %.
Die Methodik steuert die Aufgabenschwierigkeit basierend auf lokalem und systemweitem Denken.
Dieser Ansatz reduziert den menschlichen Aufwand zur Erstellung und Anpassung von Bewertungskriterien.

Abstract

Benchmarks für große Sprachmodelle (LLMs) haben überwiegend kurzfristiges, lokalisiertes Schlussfolgern bewertet. Bestehende Langzeit-Suiten (z.B. SWE-bench) basieren auf manuell kuratierten Problemen, sodass das Erweitern oder Anpassen der Schwierigkeit teuren menschlichen Aufwand erfordert und die Evaluierungen schnell gesättigt sind. Viele reale Aufgaben, wie Softwareentwicklung oder wissenschaftliche Forschung, verlangen jedoch von Agenten, neuartige, komplexe Strukturen schnell zu verstehen und dynamisch zu manipulieren; die Bewertung dieser Fähigkeiten benötigt die Möglichkeit, große und vielfältige Problemsets für Agenten zu erstellen. Wir stellen Breakpoint vor, eine Benchmarking-Methodik, die durch adversariales Verzerren von Funktionen in realen Software-Repositorien automatisch Code-Reparaturaufgaben erzeugt. Breakpoint steuert die Aufgabenschwierigkeit systematisch entlang zweier klarer Dimensionen: lokales Denken (charakterisiert durch Code-Komplexitätsmaße wie zyklomatische Komplexität) und systemweites Denken (charakterisiert durch Call-Graph-Zentralität und die Anzahl gleichzeitig korrumpierter, voneinander abhängiger Funktionen). In Experimenten mit mehr als 900 generierten Aufgaben zeigen wir, dass unsere Methodik beliebig skalierbar ist, wobei die Erfolgsraten moderner Modelle von 55 % bei den einfachsten bis 0 % bei den schwierigsten Aufgaben reichen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kaivalya Hariharan

Uzay Girit

Andrew Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Breakpoint: Skalierbare Bewertung des systemweiten Denkens bei LLM-Codeagenten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider