September 27, 2025Open Access

MM-BrowseComp: معيار شامل لوكلاء التصفح متعدد الوسائط

Key Points

حقق الوكلاء دقة بلغت 29.02\% فقط في MM-BrowseComp، مما يكشف عن نقاط ضعف في قدرات الاستدلال متعدد الوسائط.
يتضمن المعيار 224 سؤالًا فريدًا مصممة لتقييم متعدد الوسائط، تشمل الصور ومقاطع الفيديو.
تستخدم التقييمات أسئلة مصممة يدويًا، مع توفير قائمة تحقق لتحليل مفصل لاعتمادات الاستدلال.
تشير النتائج إلى وجود فجوة في القدرات متعدد الوسائط في نماذج الذكاء الاصطناعي الرائدة، بما في ذلك OpenAI o3.

Abstract

أظهرت وكلاء الذكاء الاصطناعي الذين يمتلكون قدرات متقدمة على الاستدلال واستخدام الأدوات أداءً مثيرًا للإعجاب في تصفح الويب للبحث العميق. بينما تقيم المعايير الموجودة مثل BrowseComp هذه القدرات في التصفح، إلا أنها تركز بشكل أساسي على المعلومات النصية متجاهلةً انتشار المحتوى متعدد الوسائط. لسد هذه الفجوة، نقدم MM-BrowseComp، وهو معيار جديد يتضمن 224 سؤالًا تحديًا مُصممة يدويًا خصيصًا لتقييم قدرات الوكلاء في الاسترجاع والاستدلال متعدد الوسائط. غالبًا ما تدمج هذه الأسئلة الصور في المطالبات، وقد تكون المعلومات الحاسمة التي يتم مواجهتها أثناء عملية البحث والاستدلال مضمّنة أيضًا داخل الصور أو مقاطع الفيديو على صفحات الويب. بناءً عليه، فإن الطرق التي تعتمد فقط على النصوص تثبت عدم كفايتها لمعيارنا. بالإضافة إلى ذلك، نوفر قائمة تحقق موثّقة لكل سؤال، مما يتيح تحليلاً دقيقًا لاعتمادات ومتاهات الاستدلال متعددة الوسائط. تكشف تقييماتنا الشاملة للنماذج المتطورة على MM-BrowseComp أن حتى النماذج المتقدمة مثل OpenAI o3 مع الأدوات تحقق دقة تبلغ فقط 29.02\%، مما يُبرز القدرات غير المثالية متعدد الوسائط ونقص الاستدلال متعدد الوسائط الأصلي في النماذج الحالية.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

S. Li

Xingyuan Bu

Wenjie Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MM-BrowseComp: معيار شامل لوكلاء التصفح متعدد الوسائط

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider