March 15, 2024Open Access

دمج الرموز متعدد المعايير مع الانتباه خطوة واحدة للأمام لكفاءة محولات الرؤية

Key Points

Key points are not available for this paper at this time.

Abstract

برز محول الرؤية (ViT) كهيكل أساسي بارز للرؤية الحاسوبية. من أجل تحسين كفاءة ViTs، قللت الأعمال البحثية الحديثة من التكلفة التربيعية لطبقة الانتباه الذاتي عبر تقليم أو دمج الرموز الزائدة. مع ذلك، واجهت هذه الأعمال مقايضة بين السرعة والدقة بسبب فقدان المعلومات. هنا، نجادل بأن دمج الرموز يحتاج للنظر في العلاقات المتنوعة بين الرموز لتقليل فقدان المعلومات. في هذه الورقة، نقترح دمج الرموز متعدد المعايير (MCTF)، الذي يدمج الرموز تدريجياً استناداً إلى معايير متعددة (مثل التشابه، informativeness، وحجم الرموز المدمجة). علاوة على ذلك، نستخدم الانتباه خطوة واحدة للأمام، وهو نهج محسّن لالتقاط مدى informativeness للرموز. من خلال تدريب النموذج المزود بـ MCTF باستخدام اتساق تقليل الرموز، نحقق أفضل توازن بين السرعة والدقة في تصنيف الصور (ImageNet1K). تثبت النتائج التجريبية أن MCTF يتفوق باستمرار على طرق التقليل السابقة مع التدريب وبدونه. وبشكل محدد، تقلل DeiT-T وDeiT-S مع MCTF من FLOPs بحوالي 44% مع تحسين الأداء (+0.5% و +0.3%) مقارنة بالنموذج الأساسي على التوالي. كما نوضح قابلية تطبيق MCTF في مختلف محولات الرؤية (مثل T2T-ViT، LV-ViT)، محققين تسريعاً لا يقل عن 31% دون تدهور في الأداء. الشفرة متاحة على https://github.com/mlvlab/MCTF.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sanghyeok Lee

Joonmyung Choi

Hyunwoo J. Kim

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

دمج الرموز متعدد المعايير مع الانتباه خطوة واحدة للأمام لكفاءة محولات الرؤية

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider