What type of study is this?

This is a Quantitative Study study.

September 20, 2025

DToMA: التلاعب الديناميكي بالرموز بدون تدريب لفهم الفيديوهات الطويلة

Key Points

يحسن DToMA الكفاءة والفهم في مهام الفيديوهات الطويلة، مع تحقيق مكاسب أداء ملحوظة.
تؤكد التجارب عبر ستة معايير لفهم الفيديوهات الطويلة تفوق DToMA على الطرق الحديثة.
تقوم الطريقة المقترحة بإعطاء أولوية ديناميكية للإطارات الرئيسية وتستخدم عدم التأكد لتعزيز الاحتفاظ بالمعلومات.
يعمم DToMA بفعالية عبر ثلاث معماريات مختلفة لـVideoLLM، مما يدل على تطبيق واسع.

Abstract

تتطلب نماذج اللغة الكبيرة للفيديوهات (VideoLLMs) عادةً آلاف الرموز البصرية لمعالجة الفيديوهات الطويلة، مما يؤدي إلى تكاليف حسابية كبيرة، وتزداد سوءًا بسبب عدم كفاءة الرموز البصرية. تحسن طرق تقليل الرموز وتمثيل الفيديوهات البديلة الكفاءة لكنها غالبًا ما تضر بقدرات الفهم. في هذا العمل، نحلل عمليات الاستدلال في VideoLLMs في مهمة سؤال وجواب فيديو متعددة الخيارات، محددين ثلاث مراحل استدلال—مرحلة سطحية، متوسطة، وعميقة—تحاكي عمليات المعالجة الإدراكية البشرية. يكشف تحليلنا عن عدم كفاءات محددة في كل مرحلة: في الطبقات السطحية، تحاول VideoLLMs حفظ كل تفاصيل الفيديو دون إعطاء الأولوية للمحتوى ذي الصلة؛ في الطبقات المتوسطة، تفشل النماذج في إعادة فحص المحتوى غير المؤكد بشكل ديناميكي؛ وفي الطبقات العميقة، تستمر في معالجة الفيديو حتى عندما تكون واثقة بما فيه الكفاية. لسد هذه الفجوة، نقترح DToMA، طريقة التلاعب الديناميكي بالرموز بدون تدريب، مستلهمة من آليات التكيف البشري في ثلاثة جوانب: 1) إعادة تنظيم مدروسة بواسطة النص وواعية للإطارات الرئيسية لتفضيلها وتقليل التكرار، 2) الحقن البصري القائم على عدم التأكد لإعادة مراجعة المحتوى ديناميكيًا، و3) تقليم الخروج المبكر لوقف استخدام الرموز البصرية عند التأكد الكافي. تُظهر التجارب على ستة معايير لفهم الفيديوهات الطويلة أن DToMA يعزز كل من الكفاءة والفهم، متفوقًا على أفضل الطرق ويعمم بشكل جيد عبر ثلاث معماريات وأحجام مختلفة لـVideoLLM. الشفرة متاحة على https://github.com/yuanrr/DToMA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bowen Yuan

Sisi You

Bing‐Kun Bao

Actions

Institutions

Nanjing University of Posts and Telecommunications

Peng Cheng Laboratory

Tibetan Traditional Medical College

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DToMA: التلاعب الديناميكي بالرموز بدون تدريب لفهم الفيديوهات الطويلة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider