Los puntos clave no están disponibles para este artículo en este momento.
La arquitectura Transformer procesa secuencias mediante la implementación de una forma de intercambio neural de mensajes que consiste en la recuperación iterativa de información (atención), seguida de un procesamiento local (MLP posicional). Dos tipos de información son esenciales bajo este paradigma computacional general: información "sensorial" sobre objetos individuales, e información "relacional" que describe las relaciones entre objetos. La atención estándar codifica naturalmente la primera, pero no codifica explícitamente la segunda. En este artículo, presentamos una extensión de Transformers donde la atención multi-cabeza se aumenta con dos tipos distintos de cabezas de atención, cada una enruta información de un tipo diferente. El primer tipo es el mecanismo de atención estándar de Transformers, que captura características a nivel de objeto, mientras que el segundo tipo es un nuevo mecanismo de atención que proponemos para capturar explícitamente información relacional. Los dos tipos de cabezas de atención poseen diferentes sesgos inductivos, otorgando a la arquitectura resultante mayor eficiencia y versatilidad. La promesa de este enfoque se demuestra empíricamente en una variedad de tareas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Awni Altabaa
John Lafferty
Building similarity graph...
Analyzing shared references across papers
Loading...
Altabaa et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e686b9b6db64358760eee2 — DOI: https://doi.org/10.48550/arxiv.2405.16727
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: