Key points are not available for this paper at this time.
يمثل فهم الفيديو طويل المدى تحديًا كبيرًا في رؤية الحاسوب، حيث يتطلب نموذجًا قادرًا على الاستدلال عبر تسلسلات متعددة الوسائط طويلة. وبالإلهام من العملية الإدراكية البشرية لفهم الفيديو طويل المدى، نؤكد على الاستدلال التفاعلي والتخطيط بدلاً من القدرة على معالجة المدخلات البصرية الطويلة. نقدم نظامًا جديدًا قائمًا على الوكلاء، VideoAgent، الذي يستخدم نموذج لغة كبيرة كوكيل مركزي لتحديد وجمع المعلومات الجوهرية بشكل تكراري للإجابة عن سؤال، حيث تعمل نماذج الأساس للرؤية-اللغة كأدوات لترجمة واسترجاع المعلومات البصرية. تم تقييم VideoAgent على معياري EgoSchema و NExT-QA الصعبين، حيث حقق دقة صفرية بمعدلات 54.1٪ و71.3٪ على التوالي مع استخدام متوسط 8.4 و8.2 إطارات فقط. تبرز هذه النتائج الفعالية والكفاءة المتفوقة لطريقتنا مقارنة بأحدث الطرق، مما يسلط الضوء على إمكانات النهج المعتمد على الوكلاء في تطوير فهم الفيديو طويل المدى.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaohan Wang
Yuhui Zhang
Orr Zohar
Building similarity graph...
Analyzing shared references across papers
Loading...
درس وانغ وزملاؤه هذا السؤال.
www.synapsesocial.com/papers/68e73ed6b6db6435876b87fc — DOI: https://doi.org/10.48550/arxiv.2403.10517