أظهرت وكلاء الذكاء الاصطناعي الذين يمتلكون قدرات متقدمة على الاستدلال واستخدام الأدوات أداءً مثيرًا للإعجاب في تصفح الويب للبحث العميق. بينما تقيم المعايير الموجودة مثل BrowseComp هذه القدرات في التصفح، إلا أنها تركز بشكل أساسي على المعلومات النصية متجاهلةً انتشار المحتوى متعدد الوسائط. لسد هذه الفجوة، نقدم MM-BrowseComp، وهو معيار جديد يتضمن 224 سؤالًا تحديًا مُصممة يدويًا خصيصًا لتقييم قدرات الوكلاء في الاسترجاع والاستدلال متعدد الوسائط. غالبًا ما تدمج هذه الأسئلة الصور في المطالبات، وقد تكون المعلومات الحاسمة التي يتم مواجهتها أثناء عملية البحث والاستدلال مضمّنة أيضًا داخل الصور أو مقاطع الفيديو على صفحات الويب. بناءً عليه، فإن الطرق التي تعتمد فقط على النصوص تثبت عدم كفايتها لمعيارنا. بالإضافة إلى ذلك، نوفر قائمة تحقق موثّقة لكل سؤال، مما يتيح تحليلاً دقيقًا لاعتمادات ومتاهات الاستدلال متعددة الوسائط. تكشف تقييماتنا الشاملة للنماذج المتطورة على MM-BrowseComp أن حتى النماذج المتقدمة مثل OpenAI o3 مع الأدوات تحقق دقة تبلغ فقط 29.02\%، مما يُبرز القدرات غير المثالية متعدد الوسائط ونقص الاستدلال متعدد الوسائط الأصلي في النماذج الحالية.
Building similarity graph...
Analyzing shared references across papers
Loading...
S. Li
Xingyuan Bu
Wenjie Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لي وآخرون (الخميس) هذا السؤال.
www.synapsesocial.com/papers/68d7be70eebfec0fc52384ec — DOI: https://doi.org/10.48550/arxiv.2508.13186
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: