أظهرت وكلاء نماذج اللغة الكبيرة (LLM) قدرات مميزة في فهم اللغة البشرية والمنطق، رغم أن إمكاناتهم في مجال الأمن السيبراني لا تزال غير مستكشفة بشكل كافٍ. نقدم DefenderBench، مجموعة أدوات عملية ومفتوحة المصدر لتقييم وكلاء اللغة عبر مهام الهجوم، الدفاع، والمعرفة في الأمن السيبراني. تتضمن DefenderBench بيئات لاختراق الشبكات، كشف المحتوى الخبيث، تحليل ثغرات الشيفرة، وتقييم المعرفة في الأمن السيبراني. صُممت لتكون ميسورة التكلفة وسهلة الوصول للباحثين مع تقديم تقييم عادل ودقيق. قمنا بمقارنة عدة نماذج LLM متقدمة وشائعة، من ضمنها نماذج مفتوحة ومغلقة الأوزان، باستخدام إطار نماذجي موحد. تظهر نتائجنا أن Claude-3.7-sonnet يحقق الأداء الأفضل بنتيجة DefenderBench تبلغ 81.65، يليه Claude-3.7-sonnet-think بنتيجة 78.40، في حين أن أفضل نموذج مفتوح الوزن، Llama 3.3 70B، ليس بعيدًا بنتيجة 71.81. يسمح التصميم المعياري لـ DefenderBench بدمج سلس للنماذج والمهام المخصصة، مما يعزز التكرار والمقارنات العادلة. نسخة مجهولة الهوية من DefenderBench متاحة على https://github.com/microsoft/DefenderBench.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chiyu Zhang
Marc-Alexandre Côté
Michael Albada
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhang وآخرون (Sat,) هذا السؤال.
www.synapsesocial.com/papers/68e6f342f8145af55aeacace — DOI: https://doi.org/10.48550/arxiv.2506.00739