Key points are not available for this paper at this time.
برز محول الرؤية (ViT) كهيكل أساسي بارز للرؤية الحاسوبية. من أجل تحسين كفاءة ViTs، قللت الأعمال البحثية الحديثة من التكلفة التربيعية لطبقة الانتباه الذاتي عبر تقليم أو دمج الرموز الزائدة. مع ذلك، واجهت هذه الأعمال مقايضة بين السرعة والدقة بسبب فقدان المعلومات. هنا، نجادل بأن دمج الرموز يحتاج للنظر في العلاقات المتنوعة بين الرموز لتقليل فقدان المعلومات. في هذه الورقة، نقترح دمج الرموز متعدد المعايير (MCTF)، الذي يدمج الرموز تدريجياً استناداً إلى معايير متعددة (مثل التشابه، informativeness، وحجم الرموز المدمجة). علاوة على ذلك، نستخدم الانتباه خطوة واحدة للأمام، وهو نهج محسّن لالتقاط مدى informativeness للرموز. من خلال تدريب النموذج المزود بـ MCTF باستخدام اتساق تقليل الرموز، نحقق أفضل توازن بين السرعة والدقة في تصنيف الصور (ImageNet1K). تثبت النتائج التجريبية أن MCTF يتفوق باستمرار على طرق التقليل السابقة مع التدريب وبدونه. وبشكل محدد، تقلل DeiT-T وDeiT-S مع MCTF من FLOPs بحوالي 44% مع تحسين الأداء (+0.5% و +0.3%) مقارنة بالنموذج الأساسي على التوالي. كما نوضح قابلية تطبيق MCTF في مختلف محولات الرؤية (مثل T2T-ViT، LV-ViT)، محققين تسريعاً لا يقل عن 31% دون تدهور في الأداء. الشفرة متاحة على https://github.com/mlvlab/MCTF.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sanghyeok Lee
Joonmyung Choi
Hyunwoo J. Kim
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لي وآخرون (الجمعة) هذا السؤال.
www.synapsesocial.com/papers/68e73ed6b6db6435876b8686 — DOI: https://doi.org/10.48550/arxiv.2403.10030
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: