What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

DefenderBench: مجموعة أدوات لتقييم وكلاء اللغة في بيئات الأمن السيبراني

Key Points

يقيم DefenderBench وكلاء اللغة عبر مهام متنوعة في الأمن السيبراني، مما يعزز التقييم الأفضل والفهم الأعمق.
المقارنات تُظهر أن Claude-3.7-sonnet يحقق أعلى الدرجات بواقع 81.65 عند اختبار نماذج LLM لتطبيقات الأمن.
تتميز المجموعة ببيئات للكشف عن التسلل، تحليل المحتوى، وتقييم الثغرات لتوجيه البحث.
يشجع التصميم المعياري إضافة نماذج و مهام مخصصة، مما يعزز التكرار والمقارنات العادلة.

Abstract

أظهرت وكلاء نماذج اللغة الكبيرة (LLM) قدرات مميزة في فهم اللغة البشرية والمنطق، رغم أن إمكاناتهم في مجال الأمن السيبراني لا تزال غير مستكشفة بشكل كافٍ. نقدم DefenderBench، مجموعة أدوات عملية ومفتوحة المصدر لتقييم وكلاء اللغة عبر مهام الهجوم، الدفاع، والمعرفة في الأمن السيبراني. تتضمن DefenderBench بيئات لاختراق الشبكات، كشف المحتوى الخبيث، تحليل ثغرات الشيفرة، وتقييم المعرفة في الأمن السيبراني. صُممت لتكون ميسورة التكلفة وسهلة الوصول للباحثين مع تقديم تقييم عادل ودقيق. قمنا بمقارنة عدة نماذج LLM متقدمة وشائعة، من ضمنها نماذج مفتوحة ومغلقة الأوزان، باستخدام إطار نماذجي موحد. تظهر نتائجنا أن Claude-3.7-sonnet يحقق الأداء الأفضل بنتيجة DefenderBench تبلغ 81.65، يليه Claude-3.7-sonnet-think بنتيجة 78.40، في حين أن أفضل نموذج مفتوح الوزن، Llama 3.3 70B، ليس بعيدًا بنتيجة 71.81. يسمح التصميم المعياري لـ DefenderBench بدمج سلس للنماذج والمهام المخصصة، مما يعزز التكرار والمقارنات العادلة. نسخة مجهولة الهوية من DefenderBench متاحة على https://github.com/microsoft/DefenderBench.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chiyu Zhang

Marc-Alexandre Côté

Michael Albada

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DefenderBench: مجموعة أدوات لتقييم وكلاء اللغة في بيئات الأمن السيبراني

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study