تتطلب نماذج اللغة الكبيرة للفيديوهات (VideoLLMs) عادةً آلاف الرموز البصرية لمعالجة الفيديوهات الطويلة، مما يؤدي إلى تكاليف حسابية كبيرة، وتزداد سوءًا بسبب عدم كفاءة الرموز البصرية. تحسن طرق تقليل الرموز وتمثيل الفيديوهات البديلة الكفاءة لكنها غالبًا ما تضر بقدرات الفهم. في هذا العمل، نحلل عمليات الاستدلال في VideoLLMs في مهمة سؤال وجواب فيديو متعددة الخيارات، محددين ثلاث مراحل استدلال—مرحلة سطحية، متوسطة، وعميقة—تحاكي عمليات المعالجة الإدراكية البشرية. يكشف تحليلنا عن عدم كفاءات محددة في كل مرحلة: في الطبقات السطحية، تحاول VideoLLMs حفظ كل تفاصيل الفيديو دون إعطاء الأولوية للمحتوى ذي الصلة؛ في الطبقات المتوسطة، تفشل النماذج في إعادة فحص المحتوى غير المؤكد بشكل ديناميكي؛ وفي الطبقات العميقة، تستمر في معالجة الفيديو حتى عندما تكون واثقة بما فيه الكفاية. لسد هذه الفجوة، نقترح DToMA، طريقة التلاعب الديناميكي بالرموز بدون تدريب، مستلهمة من آليات التكيف البشري في ثلاثة جوانب: 1) إعادة تنظيم مدروسة بواسطة النص وواعية للإطارات الرئيسية لتفضيلها وتقليل التكرار، 2) الحقن البصري القائم على عدم التأكد لإعادة مراجعة المحتوى ديناميكيًا، و3) تقليم الخروج المبكر لوقف استخدام الرموز البصرية عند التأكد الكافي. تُظهر التجارب على ستة معايير لفهم الفيديوهات الطويلة أن DToMA يعزز كل من الكفاءة والفهم، متفوقًا على أفضل الطرق ويعمم بشكل جيد عبر ثلاث معماريات وأحجام مختلفة لـVideoLLM. الشفرة متاحة على https://github.com/yuanrr/DToMA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bowen Yuan
Sisi You
Bing‐Kun Bao
Nanjing University of Posts and Telecommunications
Peng Cheng Laboratory
Tibetan Traditional Medical College
Building similarity graph...
Analyzing shared references across papers
Loading...
درس يوان وآخرون (الإثنين) هذا السؤال.
www.synapsesocial.com/papers/68d46aa631b076d99fa672ed — DOI: https://doi.org/10.24963/ijcai.2025/258
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: