Key points are not available for this paper at this time.
يستخدم البشر نظرهم للتركيز على المعلومات الضرورية أثناء إدراك وتفسير النوايا في الفيديوهات. إن دمج نظرة الإنسان في الخوارزميات الحاسوبية يمكن أن يعزز أداء النماذج بشكل كبير في مهام فهم الفيديو. في هذا العمل، نتناول مهمة تحديّة ومبتكرة في فهم الفيديو: توقع أفعال الوكيل في الفيديو بناءً على جزء منه فقط. نقدم خوارزمية توقع الأفعال الموجهة بالنظر، التي تنشئ رسمًا بيانيًا بصريًا-دلاليًا من مدخلات الفيديو. تستخدم طريقتنا شبكة عصبية بيانية للتعرف على نية الوكيل وتوقع تسلسل الأفعال لتحقيق هذه النية. لتقييم كفاءة منهجنا، جمعنا مجموعة بيانات تحتوي على أنشطة منزلية تم إنشاؤها في بيئة VirtualHome، مصحوبة ببيانات نظر الإنسان أثناء مشاهدة الفيديوهات. تتفوق طريقتنا على التقنيات الحديثة، محققة تحسينًا بنسبة 7% في الدقة لتصنيف النوايا ضمن 18 فئة. هذا يبرز كفاءة طريقتنا في تعلم الميزات المهمة من بيانات نظر الإنسان.
Building similarity graph...
Analyzing shared references across papers
Loading...
Süleyman Özdel
Yao Rong
Berat Mert Albaba
Massachusetts Institute of Technology
ETH Zurich
Technical University of Munich
Building similarity graph...
Analyzing shared references across papers
Loading...
درس أوزديل وآخرون (الجمعة) هذا السؤال.
www.synapsesocial.com/papers/68e67624b6db6435876006f2 — DOI: https://doi.org/10.1145/3649902.3653340