تم تقييم مقاييس نماذج اللغة الكبيرة (LLMs) في الغالب على التفكير قصير المدى والمحلي. تعتمد مجموعات الاختبار طويلة المدى الحالية (مثل SWE-bench) على مسائل مختارة يدويًا، لذا فإن توسيعها أو ضبط صعوبتها يتطلب جهدًا بشريًا مكلفًا وتتوقف التقييمات بسرعة عند حد معين. ومع ذلك، تتطلب العديد من مهام العالم الحقيقي، مثل هندسة البرمجيات أو البحث العلمي، من الوكلاء فهم وهندسة هياكل جديدة ومعقدة بسرعة وديناميكية؛ ويتطلب تقييم هذه القدرات القدرة على إنشاء مجموعات كبيرة ومتنوعة من المشاكل ليحلها الوكلاء. نقدم Breakpoint، منهجية تقييم تولد تلقائيًا مهام إصلاح الشيفرة من خلال إفساد دوال عدائية ضمن مستودعات برمجية حقيقية. يتحكم Breakpoint بشكل منهجي في صعوبة المهام على بُعدين واضحين: التفكير المحلي (المميز بمقاييس تعقيد الشيفرة مثل التعقيد السيكلوماتيكي) والتفكير على مستوى النظام (المميز بمركزية مخطط الاستدعاءات وعدد الدوال المتداخلة المتفسدة في وقت واحد). في تجارب على أكثر من 900 مهمة مولدة، نبرهن أن منهجيتنا يمكن أن تتوسع لأي درجة صعوبة، حيث تراوحت معدلات نجاح النماذج المتقدمة بين 55% في المهام الأسهل و0% في الأصعب.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kaivalya Hariharan
Uzay Girit
Andrew Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
درس هاريهاران وآخرون (الجمعة،) هذا السؤال.
www.synapsesocial.com/papers/68e6bc5f38ca8e474d549fbe — DOI: https://doi.org/10.48550/arxiv.2506.00172