June 1, 2020

التفاعلات المحلية والعالمية بين الفيديو والنص للربط الزمني

Key Points

Key points are not available for this paper at this time.

Abstract

تتناول هذه الورقة مشكلة الربط الزمني من النص إلى الفيديو، والتي تهدف إلى تحديد الفاصل الزمني في الفيديو المرتبط دلالياً باستعلام نصي. نحن نتعامل مع هذه المشكلة باستخدام نموذج جديد يعتمد على الانحدار، يتعلم استخراج مجموعة من الميزات متوسطة المستوى لعبارات ذات معنى في استعلام النص، والتي تتوافق مع الكيانات الدلالية المهمة الموضحة في الاستعلام (مثل الممثلين، الأشياء، والأفعال)، ويعكس التفاعلات ذات الوضعين بين الميزات اللغوية للاستعلام والميزات البصرية للفيديو على مستويات متعددة. الطريقة المقترحة تتنبأ بفعالية بالفاصل الزمني المستهدف من خلال استغلال المعلومات السياقية من المحلي إلى العالمي أثناء التفاعلات ذات الوضعين. من خلال الدراسات التحليلية المعمقة، وجدنا أن دمج السياق المحلي والعالمي في تفاعلات الفيديو والنص أمر حاسم للربط الدقيق. تُظهر تجاربنا أن الطريقة المقترحة تتفوق على أحدث الطرق في مجموعات بيانات Charades-STA وActivityNet Captions بفوارق كبيرة، 7.44% و4.61% نقطة في مقياس Recall@tIoU=0.5 على التوالي.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jonghwan Mun

Minsu Cho

Bohyung Han

Actions

Institutions

Seoul National University

Pohang University of Science and Technology

Korea Post

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التفاعلات المحلية والعالمية بين الفيديو والنص للربط الزمني

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider