Key points are not available for this paper at this time.
تواجه الطرق التقليدية لاستيفاء إطارات الفيديو القائمة على الشبكات العصبية الالتفافية العميقة تحديات في التعامل مع الحركات الكبيرة. أداؤها محدود بحقيقة أن العمليات الالتفافية لا يمكنها دمج المعلومات الزمنية والمكانية الغنية لبيكسلات بين الإطارات مباشرة، وتعتمد هذه الطرق بشكل كبير على مدخلات إضافية مثل التدفق البصري لنمذجة الحركة. لمعالجة هذه المشكلة، قمنا بتطوير إطار عمل جديد لاستيفاء إطارات الفيديو يستخدم المحول (Transformer) لنمذجة التشابه بعيد المدى بين بيكسلات بين الإطارات بكفاءة. علاوة على ذلك، من أجل تجميع الميزات الزمانية المكانية بفعالية، صممنا آلية انتباه جديدة مقسمة إلى انتباه زمني وانتباه مكاني. على وجه التحديد، يُستخدم الانتباه المكاني لتجميع المعلومات داخل الإطار، مدمجًا بين منهجيات الانتباه والالتفاف من خلال طريقة التعيين البسيطة. يُستخدم الانتباه الزمني لنمذجة تشابه البيكسلات على الخط الزمني. هذا التصميم يحقق معالجة متوازية لهذين النوعين من المعلومات دون تكلفة حسابية إضافية، مما يجمع المعلومات في بعد الزمكان. بالإضافة إلى ذلك، قدمنا شبكة استخراج السياق وشبكة تركيب إطارات التنبؤ متعددة المقاييس لتحسين أداء المحول بشكل أكبر. أُجريت تجارب كمية ونوعية موسعة لطريقتنا والطُرُق المتقدمة على مجموعات بيانات معيارية مختلفة. على مجموعتي بيانات Vimeo90K و UCF101، يحقق نموذجنا تحسنات بمقدار 0.09 ديسيبل و0.01 ديسيبل في مقاييس PSNR على التوالي مقارنة بـ UPR-Net-large. على مجموعة بيانات Vimeo90K، يتفوق نموذجنا على FLAVR بمقدار 0.07 ديسيبل، مع استخدام 40.56% فقط من معاييره. تظهر النتائج النوعية أن طريقتنا تولد حواف وتفاصيل أكثر حدة وواقعية في المشاهد المعقدة وحركة كبيرة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xin Ning
Feifan Cai
Yuhang Li
Electronics
Shanghai University
Building similarity graph...
Analyzing shared references across papers
Loading...
درس نينغ وآخرون (Sat,) هذا السؤال.
www.synapsesocial.com/papers/68e6983db6db64358761df18 — DOI: https://doi.org/10.3390/electronics13101981
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: