March 31, 2024Open Access

Sobre las dificultades de la factorización de atención a través de memoria compartida

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los transformers han revolucionado el aprendizaje profundo en numerosos campos, incluyendo el procesamiento del lenguaje natural, la visión por computadora y el procesamiento de audio. Su fortaleza radica en su mecanismo de atención, que permite descubrir relaciones complejas en la entrada. Sin embargo, la complejidad cuadrática en tiempo y memoria de este mecanismo plantea desafíos para entradas más grandes. Investigadores están explorando modelos como Linear Unified Nested Attention (Luna) o Memory Augmented Transformer, que aprovechan la memoria externa aprendible para reducir la complejidad del cálculo de atención hasta lineal, o para propagar información entre fragmentos en el procesamiento por fragmentos. Nuestros hallazgos desafían el pensamiento convencional sobre estos modelos, revelando que la interfaz directa con la memoria mediante una operación de atención es subóptima, y que el rendimiento puede mejorar considerablemente filtrando la señal de entrada antes de la comunicación con la memoria.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Uladzislau Yorsh

Martin Holeňa

Ondřej Bojar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Sobre las dificultades de la factorización de atención a través de memoria compartida

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider