June 17, 2024Open Access

Attention par saut de couche : Relier les dépendances abstraites et détaillées dans les Transformers

Key Points

Key points are not available for this paper at this time.

Abstract

L'architecture Transformer a considérablement fait progresser l'apprentissage profond, notamment dans le traitement du langage naturel, en gérant efficacement les dépendances à longue distance. Cependant, face à la demande croissante de compréhension des relations complexes, le raffinement de l'architecture du Transformer devient crucial. Cet article introduit l'Attention par saut de couche (SLA) pour améliorer les modèles Transformer en permettant une attention directe entre des couches non adjacentes. Cette méthode améliore la capacité du modèle à capturer les dépendances entre des caractéristiques abstraites de haut niveau et des détails de bas niveau. En facilitant une attention directe entre ces différents niveaux de caractéristiques, notre approche surmonte les limitations des Transformers actuels, qui reposent souvent sur une attention intra-couche sous-optimale. Notre implémentation étend la fonctionnalité du Transformer en permettant aux requêtes d'une couche donnée d'interagir avec les clés et valeurs à la fois de la couche courante et d'une couche précédente, augmentant ainsi la diversité de l'attention multi-têtes sans charge computationnelle supplémentaire. Des expériences approfondies démontrent que notre modèle Transformer amélioré atteint des performances supérieures dans les tâches de modélisation du langage, soulignant l'efficacité de notre mécanisme d'attention par saut de couche.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qian Chen

Wen Wang

Qinglin Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Attention par saut de couche : Relier les dépendances abstraites et détaillées dans les Transformers

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider