May 31, 2024Open Access

شبكة عصبية بيانية موجهة بالنظر لتوقع الأفعال بناءً على النية

Key Points

Key points are not available for this paper at this time.

Abstract

يستخدم البشر نظرهم للتركيز على المعلومات الضرورية أثناء إدراك وتفسير النوايا في الفيديوهات. إن دمج نظرة الإنسان في الخوارزميات الحاسوبية يمكن أن يعزز أداء النماذج بشكل كبير في مهام فهم الفيديو. في هذا العمل، نتناول مهمة تحديّة ومبتكرة في فهم الفيديو: توقع أفعال الوكيل في الفيديو بناءً على جزء منه فقط. نقدم خوارزمية توقع الأفعال الموجهة بالنظر، التي تنشئ رسمًا بيانيًا بصريًا-دلاليًا من مدخلات الفيديو. تستخدم طريقتنا شبكة عصبية بيانية للتعرف على نية الوكيل وتوقع تسلسل الأفعال لتحقيق هذه النية. لتقييم كفاءة منهجنا، جمعنا مجموعة بيانات تحتوي على أنشطة منزلية تم إنشاؤها في بيئة VirtualHome، مصحوبة ببيانات نظر الإنسان أثناء مشاهدة الفيديوهات. تتفوق طريقتنا على التقنيات الحديثة، محققة تحسينًا بنسبة 7% في الدقة لتصنيف النوايا ضمن 18 فئة. هذا يبرز كفاءة طريقتنا في تعلم الميزات المهمة من بيانات نظر الإنسان.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Süleyman Özdel

Yao Rong

Berat Mert Albaba

Actions

Institutions

Massachusetts Institute of Technology

ETH Zurich

Technical University of Munich

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

شبكة عصبية بيانية موجهة بالنظر لتوقع الأفعال بناءً على النية

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study