March 26, 2024Open Access

تقييم فعالية نماذج متعددة الوسائط كبيرة الحجم المُصممة بواسطة التوجيه مقابل محولات الرؤية المضبوطة بدقة في تطبيقات الأمن المعتمدة على الصور

Key Points

Key points are not available for this paper at this time.

Abstract

لقد أدى نجاح نماذج اللغة الكبيرة (LLMs) إلى زيادة موازية في تطوير نماذج متعددة الوسائط كبيرة الحجم (LMMs)، مثل Gemini-pro، التي بدأت بتحويل مجموعة متنوعة من التطبيقات. تم تصميم هذه النماذج المتعددة الوسائط المتطورة لتفسير وتحليل البيانات المعقدة، مندمجة المعلومات النصية والبصرية على نطاق لم يكن ممكنًا من قبل، مما يفتح آفاقًا جديدة لمجموعة من التطبيقات. تبحث هذه الورقة في قابلية تطبيق وفعالية نماذج Gemini-pro LMMs المُوجهة مقابل نماذج محولات الرؤية (ViT) المضبوطة بدقة في معالجة التحديات الأمنية الحرجة. نركز على مهمتين مميزتين: مهمة واضحة بصريًا في اكتشاف المحفزات البسيطة، مثل المربعات الصغيرة في الصور، التي تشير إلى احتمالية وجود أبواب خلفية، ومهمة غير واضحة بصريًا لتصنيف البرمجيات الخبيثة من خلال التمثيلات البصرية. تُبرز نتائجنا تباينًا كبيرًا في الأداء، حيث يُظهر Gemini-pro قصورًا في الدقة والموثوقية مقارنة بنماذج ViT المضبوطة بدقة. من ناحية أخرى، تُظهر نماذج ViT دقة استثنائية، محققة أداءً قريبًا من المثالي في المهمتين. لا تُبرز هذه الدراسة نقاط القوة والقيود لنماذج LMMs المُوجهة في تطبيقات الأمن السيبراني فقط، بل تُبرز أيضًا الفعالية الفريدة لنماذج ViT المضبوطة بدقة للمهام الدقيقة والموثوقة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fouad Trad

Ali Chehab

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تقييم فعالية نماذج متعددة الوسائط كبيرة الحجم المُصممة بواسطة التوجيه مقابل محولات الرؤية المضبوطة بدقة في تطبيقات الأمن المعتمدة على الصور

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider