October 22, 2020Open Access

صورة تُعادل 16×16 كلمة: المحولات للتعرف على الصور على نطاق واسع

Key Points

Key points are not available for this paper at this time.

Abstract

بينما أصبحت بنية المحول هي المعيار الفعلي لمهام معالجة اللغة الطبيعية، لا تزال تطبيقاتها في رؤية الكمبيوتر محدودة. في الرؤية، يُطبق الانتباه إما بالاشتراك مع الشبكات الالتفافية، أو يستخدم لاستبدال بعض مكونات الشبكات الالتفافية مع الحفاظ على هيكلها العام. نُظهر أن هذا الاعتماد على الشبكات الالتفافية غير ضروري وأن المحول النقي المُطبق مباشرة على تسلسلات من رقع الصور يمكن أن يؤدي أداءً جيدًا جدًا في مهام تصنيف الصور. عند تدريبه مسبقًا على كميات كبيرة من البيانات ونقله إلى عدة معايير تصنيف صور متوسطة أو صغيرة الحجم (ImageNet، CIFAR-100، VTAB، إلخ)، يحقق Vision Transformer (ViT) نتائج ممتازة مقارنة بأحدث الشبكات الالتفافية مع احتياجه إلى موارد حوسبة أقل بكثير للتدريب.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alexey Dosovitskiy

Lucas Beyer

Alexander Kolesnikov

Actions

Institutions

Google (United States)

German Research Centre for Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

صورة تُعادل 16×16 كلمة: المحولات للتعرف على الصور على نطاق واسع

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider