Benchmarks für große Sprachmodelle (LLMs) haben überwiegend kurzfristiges, lokalisiertes Schlussfolgern bewertet. Bestehende Langzeit-Suiten (z.B. SWE-bench) basieren auf manuell kuratierten Problemen, sodass das Erweitern oder Anpassen der Schwierigkeit teuren menschlichen Aufwand erfordert und die Evaluierungen schnell gesättigt sind. Viele reale Aufgaben, wie Softwareentwicklung oder wissenschaftliche Forschung, verlangen jedoch von Agenten, neuartige, komplexe Strukturen schnell zu verstehen und dynamisch zu manipulieren; die Bewertung dieser Fähigkeiten benötigt die Möglichkeit, große und vielfältige Problemsets für Agenten zu erstellen. Wir stellen Breakpoint vor, eine Benchmarking-Methodik, die durch adversariales Verzerren von Funktionen in realen Software-Repositorien automatisch Code-Reparaturaufgaben erzeugt. Breakpoint steuert die Aufgabenschwierigkeit systematisch entlang zweier klarer Dimensionen: lokales Denken (charakterisiert durch Code-Komplexitätsmaße wie zyklomatische Komplexität) und systemweites Denken (charakterisiert durch Call-Graph-Zentralität und die Anzahl gleichzeitig korrumpierter, voneinander abhängiger Funktionen). In Experimenten mit mehr als 900 generierten Aufgaben zeigen wir, dass unsere Methodik beliebig skalierbar ist, wobei die Erfolgsraten moderner Modelle von 55 % bei den einfachsten bis 0 % bei den schwierigsten Aufgaben reichen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kaivalya Hariharan
Uzay Girit
Andrew Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Hariharan et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e6bc5f38ca8e474d549fbe — DOI: https://doi.org/10.48550/arxiv.2506.00172
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: