February 27, 2024Open Access

Atención Latente para Transformadores de Tiempo Lineal

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La complejidad temporal del mecanismo de atención estándar en un transformador escala cuadráticamente con la longitud de la secuencia. Introducimos un método para reducir esto a una escala lineal con el tiempo, basado en definir la atención a través de vectores latentes. El método es fácilmente usable como un reemplazo directo del mecanismo de atención estándar. Nuestro modelo "Latte Transformer" puede implementarse tanto para tareas bidireccionales como unidireccionales, con la versión causal que permite una implementación recurrente que es eficiente en memoria y tiempo durante la inferencia de tareas de generación de lenguaje. Mientras que la predicción del siguiente token escala linealmente con la longitud de la secuencia para un transformador estándar, un Latte Transformer requiere tiempo constante para calcular el siguiente token. El rendimiento empírico de nuestro método es comparable al de la atención estándar, pero permite escalar a ventanas de contexto mucho más grandes que las prácticas en la atención estándar.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rares Dolga

Marius Cobzarenco

David Barber

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Atención Latente para Transformadores de Tiempo Lineal

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study