Key points are not available for this paper at this time.
تتناول هذه الورقة مشكلة الربط الزمني من النص إلى الفيديو، والتي تهدف إلى تحديد الفاصل الزمني في الفيديو المرتبط دلالياً باستعلام نصي. نحن نتعامل مع هذه المشكلة باستخدام نموذج جديد يعتمد على الانحدار، يتعلم استخراج مجموعة من الميزات متوسطة المستوى لعبارات ذات معنى في استعلام النص، والتي تتوافق مع الكيانات الدلالية المهمة الموضحة في الاستعلام (مثل الممثلين، الأشياء، والأفعال)، ويعكس التفاعلات ذات الوضعين بين الميزات اللغوية للاستعلام والميزات البصرية للفيديو على مستويات متعددة. الطريقة المقترحة تتنبأ بفعالية بالفاصل الزمني المستهدف من خلال استغلال المعلومات السياقية من المحلي إلى العالمي أثناء التفاعلات ذات الوضعين. من خلال الدراسات التحليلية المعمقة، وجدنا أن دمج السياق المحلي والعالمي في تفاعلات الفيديو والنص أمر حاسم للربط الدقيق. تُظهر تجاربنا أن الطريقة المقترحة تتفوق على أحدث الطرق في مجموعات بيانات Charades-STA وActivityNet Captions بفوارق كبيرة، 7.44% و4.61% نقطة في مقياس Recall@tIoU=0.5 على التوالي.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jonghwan Mun
Minsu Cho
Bohyung Han
Seoul National University
Pohang University of Science and Technology
Korea Post
Building similarity graph...
Analyzing shared references across papers
Loading...
درس مون وزملاؤه (Mon,) هذا السؤال.
www.synapsesocial.com/papers/69dc19a8ce788f95bfb64ed4 — DOI: https://doi.org/10.1109/cvpr42600.2020.01082
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: