March 15, 2024Open Access

VideoAgent: فهم الفيديو طويل المدى باستخدام نموذج لغة كبيرة كوكيل

Key Points

Key points are not available for this paper at this time.

Abstract

يمثل فهم الفيديو طويل المدى تحديًا كبيرًا في رؤية الحاسوب، حيث يتطلب نموذجًا قادرًا على الاستدلال عبر تسلسلات متعددة الوسائط طويلة. وبالإلهام من العملية الإدراكية البشرية لفهم الفيديو طويل المدى، نؤكد على الاستدلال التفاعلي والتخطيط بدلاً من القدرة على معالجة المدخلات البصرية الطويلة. نقدم نظامًا جديدًا قائمًا على الوكلاء، VideoAgent، الذي يستخدم نموذج لغة كبيرة كوكيل مركزي لتحديد وجمع المعلومات الجوهرية بشكل تكراري للإجابة عن سؤال، حيث تعمل نماذج الأساس للرؤية-اللغة كأدوات لترجمة واسترجاع المعلومات البصرية. تم تقييم VideoAgent على معياري EgoSchema و NExT-QA الصعبين، حيث حقق دقة صفرية بمعدلات 54.1٪ و71.3٪ على التوالي مع استخدام متوسط 8.4 و8.2 إطارات فقط. تبرز هذه النتائج الفعالية والكفاءة المتفوقة لطريقتنا مقارنة بأحدث الطرق، مما يسلط الضوء على إمكانات النهج المعتمد على الوكلاء في تطوير فهم الفيديو طويل المدى.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiaohan Wang

Yuhui Zhang

Orr Zohar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoAgent: فهم الفيديو طويل المدى باستخدام نموذج لغة كبيرة كوكيل

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study