March 27, 2024Open Access

ViTAR: محول الرؤية بأي دقة

Key Points

Key points are not available for this paper at this time.

Abstract

تتناول هذه الورقة تحديًا كبيرًا تواجهه محولات الرؤية (ViTs): قدرتها المحدودة على التوسع عبر دقات الصور المختلفة. عادةً ما تشهد محولات الرؤية تراجعًا في الأداء عند معالجة دقات لم تُرَ أثناء التدريب. تقدم دراستنا ابتكارين رئيسيين لمعالجة هذه المشكلة. أولاً، نقترح وحدة جديدة لضبط الدقة بشكل ديناميكي، مصممة باستخدام كتلة محول واحدة، خصيصًا لتحقيق دمج فعّال متزايد للرموز. ثانيًا، نُدخِل ترميزًا موضعيًا غامضًا في محول الرؤية لتوفير وعي موضعي متسق عبر دقات متعددة، مما يمنع الإفراط في التكيف مع دقة تدريب واحدة. يُظهر نموذجنا الناتج، ViTAR (محول الرؤية بأي دقة)، قدرة تكيف رائعة، حيث يحقق دقة 83.3% من أعلى-1 عند دقة 1120x1120 ودقة 80.4% عند دقة 4032x4032، وكل ذلك مع تقليل التكاليف الحسابية. كما يظهر ViTAR أداءً قويًا في المهام الفرعية مثل التجزئة اللحظية والتجزئة الدلالية، ويمكن دمجه بسهولة مع تقنيات التعلم الذاتي مثل Masked AutoEncoder. تقدم دراستنا حلاً فعال التكلفة لتعزيز قابلية التوسع في الدقة لمحولات الرؤية، مما يمهد الطريق لمعالجة صور ذات دقة عالية أكثر تنوعًا وكفاءة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qihang Fan

Quanzeng You

Xiaotian Han

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ViTAR: محول الرؤية بأي دقة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider