Key points are not available for this paper at this time.
Les transformateurs ont récemment montré des performances supérieures dans diverses tâches de vision. Le grand champ réceptif, parfois même global, confère aux modèles Transformer un pouvoir de représentation supérieur à celui de leurs homologues CNN. Néanmoins, simplement augmenter la taille du champ réceptif soulève plusieurs préoccupations. D'une part, l'utilisation d'une attention dense, par exemple dans ViT, entraîne un coût excessif en mémoire et en calcul, et les caractéristiques peuvent être influencées par des parties non pertinentes, au-delà des régions d'intérêt. D'autre part, l'attention parcimonieuse adoptée dans PVT ou Swin Transformer est indépendante des données et peut limiter la capacité à modéliser les relations à longue portée. Pour atténuer ces problèmes, nous proposons un module d'auto-attention déformable novateur, où les positions des paires clé et valeur dans l'auto-attention sont sélectionnées de manière dépendante des données. Ce schéma flexible permet au module d'auto-attention de se concentrer sur les régions pertinentes et de capturer des caractéristiques plus informatives. Sur cette base, nous présentons le Deformable Attention Transformer, un modèle de base général avec attention déformable pour les tâches de classification d'images et de prédiction dense. Des expériences approfondies montrent que nos modèles améliorent systématiquement les résultats sur des benchmarks complets. Le code est disponible à https://github.com/LeapLabTHU/DAT.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuofan Xia
Xuran Pan
Shiji Song
Tsinghua University
Amazon (United States)
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Xia et al. (Mercredi,) ont étudié cette question.
www.synapsesocial.com/papers/69d8a3381dfc3877cabeda6f — DOI: https://doi.org/10.1109/cvpr52688.2022.00475
Synapse has enriched one closely related paper. Consider it for comparative context: