تُستخدم نماذج اللغة الكبيرة (LLMs) بشكل متزايد في مهام البرمجة، بدءًا من إكمال الشفرة في خطوة واحدة إلى الوكلاء المستقلين. غالبًا ما تعتمد تصميمات وكلاء الشفرة الحالية على سير عمل وأدوات معقدة ومصممة يدويًا. ومع ذلك، فإن الاعتماد على تلك الهياكل المعقدة يطرح عدة تحديات: تصبح آداء الوكيل مرتبطًا بشكل مفرط بضبط النماذج وتعقيدات التصميم المخصصة، كما أن التدخل البشري المكثف obscures القدرات الحقيقية للنموذج الأساسي، وتكلفة بناء وصيانة خطوط الأنابيب المعقدة مرتفعة. علاوة على ذلك، يزيد تحسين تعليمات المهام المعقدة من خطر تسرب البيانات. حاليًا، عند تقديم نماذج جديدة، غالبًا ما تنشر مزودات LLM مثل OpenAI وAnthropic درجات المؤشرات لعرض مهارات النماذج في التكويد، لكنها تُبقي أطر التقييم الخاصة بها سرية. لمعالجة هذه القيود، نقدم ليتا (Lite Agent)، الذي يُفعّل مبدأ الصغر، وهو تقليل التصميم اليدوي مع الاحتفاظ بالعناصر الأساسية لوكيل مستقل تمامًا. يسمح ليتا بتقييم أكثر صدقًا وتوحيدًا دون الحاجة لهياكل معقدة. تُظهر التجارب على Aider Polyglot وSWE-Bench مع نماذج رائدة أن ليتا يحقق أداءً تنافسيًا أو متفوقًا مقارنة بأساسيات سير العمل والوكلاء. والأهم من ذلك، يستهلك ليتا عددًا أقل من الرموز ويتطلب جهد تصميم أقل بكثير. تشير نتائجنا إلى أن ليتا كافٍ لكشف الكفاءة التكويدية الأساسية لنماذج LLM الحديثة. وأخيرًا، نقترح قانون تعقيد الوكيل: فجوة الأداء بين الوكلاء ذوي التعقيد المختلف، من التصاميم البسيطة إلى المعقدة، ستتقلص مع تحسن النموذج الأساسي، وتتقارب في النهاية إلى اختلاف ضئيل.
Building similarity graph...
Analyzing shared references across papers
Loading...
Huajuan Dai
Maoquan Wang
Mengnan Qi
Building similarity graph...
Analyzing shared references across papers
Loading...
درس داي وآخرون (الثلاثاء) هذا السؤال.
www.synapsesocial.com/papers/68f5fcd68d54a28a75cf1efd — DOI: https://doi.org/10.48550/arxiv.2509.25873
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: