Key points are not available for this paper at this time.
لقد أدى نجاح نماذج اللغة الكبيرة (LLMs) إلى زيادة موازية في تطوير نماذج متعددة الوسائط كبيرة الحجم (LMMs)، مثل Gemini-pro، التي بدأت بتحويل مجموعة متنوعة من التطبيقات. تم تصميم هذه النماذج المتعددة الوسائط المتطورة لتفسير وتحليل البيانات المعقدة، مندمجة المعلومات النصية والبصرية على نطاق لم يكن ممكنًا من قبل، مما يفتح آفاقًا جديدة لمجموعة من التطبيقات. تبحث هذه الورقة في قابلية تطبيق وفعالية نماذج Gemini-pro LMMs المُوجهة مقابل نماذج محولات الرؤية (ViT) المضبوطة بدقة في معالجة التحديات الأمنية الحرجة. نركز على مهمتين مميزتين: مهمة واضحة بصريًا في اكتشاف المحفزات البسيطة، مثل المربعات الصغيرة في الصور، التي تشير إلى احتمالية وجود أبواب خلفية، ومهمة غير واضحة بصريًا لتصنيف البرمجيات الخبيثة من خلال التمثيلات البصرية. تُبرز نتائجنا تباينًا كبيرًا في الأداء، حيث يُظهر Gemini-pro قصورًا في الدقة والموثوقية مقارنة بنماذج ViT المضبوطة بدقة. من ناحية أخرى، تُظهر نماذج ViT دقة استثنائية، محققة أداءً قريبًا من المثالي في المهمتين. لا تُبرز هذه الدراسة نقاط القوة والقيود لنماذج LMMs المُوجهة في تطبيقات الأمن السيبراني فقط، بل تُبرز أيضًا الفعالية الفريدة لنماذج ViT المضبوطة بدقة للمهام الدقيقة والموثوقة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fouad Trad
Ali Chehab
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Trad وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e7263ab6db64358769faf1 — DOI: https://doi.org/10.48550/arxiv.2403.17787
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: