Key points are not available for this paper at this time.
تتناول هذه الورقة تحديًا كبيرًا تواجهه محولات الرؤية (ViTs): قدرتها المحدودة على التوسع عبر دقات الصور المختلفة. عادةً ما تشهد محولات الرؤية تراجعًا في الأداء عند معالجة دقات لم تُرَ أثناء التدريب. تقدم دراستنا ابتكارين رئيسيين لمعالجة هذه المشكلة. أولاً، نقترح وحدة جديدة لضبط الدقة بشكل ديناميكي، مصممة باستخدام كتلة محول واحدة، خصيصًا لتحقيق دمج فعّال متزايد للرموز. ثانيًا، نُدخِل ترميزًا موضعيًا غامضًا في محول الرؤية لتوفير وعي موضعي متسق عبر دقات متعددة، مما يمنع الإفراط في التكيف مع دقة تدريب واحدة. يُظهر نموذجنا الناتج، ViTAR (محول الرؤية بأي دقة)، قدرة تكيف رائعة، حيث يحقق دقة 83.3% من أعلى-1 عند دقة 1120x1120 ودقة 80.4% عند دقة 4032x4032، وكل ذلك مع تقليل التكاليف الحسابية. كما يظهر ViTAR أداءً قويًا في المهام الفرعية مثل التجزئة اللحظية والتجزئة الدلالية، ويمكن دمجه بسهولة مع تقنيات التعلم الذاتي مثل Masked AutoEncoder. تقدم دراستنا حلاً فعال التكلفة لتعزيز قابلية التوسع في الدقة لمحولات الرؤية، مما يمهد الطريق لمعالجة صور ذات دقة عالية أكثر تنوعًا وكفاءة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qihang Fan
Quanzeng You
Xiaotian Han
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Fan وآخرون (الأربعاء،) هذا السؤال.
www.synapsesocial.com/papers/68e7220eb6db64358769bf83 — DOI: https://doi.org/10.48550/arxiv.2403.18361
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: