Key points are not available for this paper at this time.
بينما أصبحت بنية المحول هي المعيار الفعلي لمهام معالجة اللغة الطبيعية، لا تزال تطبيقاتها في رؤية الكمبيوتر محدودة. في الرؤية، يُطبق الانتباه إما بالاشتراك مع الشبكات الالتفافية، أو يستخدم لاستبدال بعض مكونات الشبكات الالتفافية مع الحفاظ على هيكلها العام. نُظهر أن هذا الاعتماد على الشبكات الالتفافية غير ضروري وأن المحول النقي المُطبق مباشرة على تسلسلات من رقع الصور يمكن أن يؤدي أداءً جيدًا جدًا في مهام تصنيف الصور. عند تدريبه مسبقًا على كميات كبيرة من البيانات ونقله إلى عدة معايير تصنيف صور متوسطة أو صغيرة الحجم (ImageNet، CIFAR-100، VTAB، إلخ)، يحقق Vision Transformer (ViT) نتائج ممتازة مقارنة بأحدث الشبكات الالتفافية مع احتياجه إلى موارد حوسبة أقل بكثير للتدريب.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alexey Dosovitskiy
Lucas Beyer
Alexander Kolesnikov
Google (United States)
German Research Centre for Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
درس دوسوفيتسكي وآخرون (Thu,) هذا السؤال.
www.synapsesocial.com/papers/6942daf4ca2dd862627d75cb — DOI: https://doi.org/10.48550/arxiv.2010.11929
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: