What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Breakpoint: تقييم قابل للتوسع للتفكير على مستوى النظام في وكلاء الشيفرة في نماذج اللغة الكبيرة

Key Points

يمكن لـ Breakpoint توليد مهام إصلاح شيفرة قابلة للتوسع، مما يمكن من تقييم التفكير على مستوى النظام.
على أكثر من 900 مهمة مولدة، تتراوح معدلات النجاح للنماذج المتقدمة بين 55% و0%.
تتحكم المنهجية في صعوبة المهام التي تعكس كلًا من التفكير المحلي والتفكير الشامل على مستوى النظام.
تُقلل هذه الطريقة الحاجة إلى الجهد البشري في إنشاء وضبط معايير التقييم.

Abstract

تم تقييم مقاييس نماذج اللغة الكبيرة (LLMs) في الغالب على التفكير قصير المدى والمحلي. تعتمد مجموعات الاختبار طويلة المدى الحالية (مثل SWE-bench) على مسائل مختارة يدويًا، لذا فإن توسيعها أو ضبط صعوبتها يتطلب جهدًا بشريًا مكلفًا وتتوقف التقييمات بسرعة عند حد معين. ومع ذلك، تتطلب العديد من مهام العالم الحقيقي، مثل هندسة البرمجيات أو البحث العلمي، من الوكلاء فهم وهندسة هياكل جديدة ومعقدة بسرعة وديناميكية؛ ويتطلب تقييم هذه القدرات القدرة على إنشاء مجموعات كبيرة ومتنوعة من المشاكل ليحلها الوكلاء. نقدم Breakpoint، منهجية تقييم تولد تلقائيًا مهام إصلاح الشيفرة من خلال إفساد دوال عدائية ضمن مستودعات برمجية حقيقية. يتحكم Breakpoint بشكل منهجي في صعوبة المهام على بُعدين واضحين: التفكير المحلي (المميز بمقاييس تعقيد الشيفرة مثل التعقيد السيكلوماتيكي) والتفكير على مستوى النظام (المميز بمركزية مخطط الاستدعاءات وعدد الدوال المتداخلة المتفسدة في وقت واحد). في تجارب على أكثر من 900 مهمة مولدة، نبرهن أن منهجيتنا يمكن أن تتوسع لأي درجة صعوبة، حيث تراوحت معدلات نجاح النماذج المتقدمة بين 55% في المهام الأسهل و0% في الأصعب.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kaivalya Hariharan

Uzay Girit

Andrew Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Breakpoint: تقييم قابل للتوسع للتفكير على مستوى النظام في وكلاء الشيفرة في نماذج اللغة الكبيرة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study