Los puntos clave no están disponibles para este artículo en este momento.
La complejidad temporal del mecanismo de atención estándar en un transformador escala cuadráticamente con la longitud de la secuencia. Introducimos un método para reducir esto a una escala lineal con el tiempo, basado en definir la atención a través de vectores latentes. El método es fácilmente usable como un reemplazo directo del mecanismo de atención estándar. Nuestro modelo "Latte Transformer" puede implementarse tanto para tareas bidireccionales como unidireccionales, con la versión causal que permite una implementación recurrente que es eficiente en memoria y tiempo durante la inferencia de tareas de generación de lenguaje. Mientras que la predicción del siguiente token escala linealmente con la longitud de la secuencia para un transformador estándar, un Latte Transformer requiere tiempo constante para calcular el siguiente token. El rendimiento empírico de nuestro método es comparable al de la atención estándar, pero permite escalar a ventanas de contexto mucho más grandes que las prácticas en la atención estándar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rares Dolga
Marius Cobzarenco
David Barber
Building similarity graph...
Analyzing shared references across papers
Loading...
Dolga et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e77797b6db6435876ec0be — DOI: https://doi.org/10.48550/arxiv.2402.17512