May 22, 2024Open Access

Atención como una RNN

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La aparición de los Transformers marcó un avance significativo en el modelado de secuencias, proporcionando una arquitectura de alto rendimiento capaz de aprovechar el paralelismo de GPU. Sin embargo, los Transformers son computacionalmente costosos en tiempo de inferencia, limitando sus aplicaciones, particularmente en entornos con pocos recursos (por ejemplo, dispositivos móviles e integrados). Para abordar esto, (1) comenzamos mostrando que la atención puede ser vista como una Red Neuronal Recurrente (RNN) especial con la capacidad de calcular eficientemente su salida RNN de muchos a uno. Luego (2) mostramos que modelos basados en atención populares como los Transformers pueden verse como variantes de RNN. Sin embargo, a diferencia de las RNN tradicionales (por ejemplo, LSTMs), estos modelos no pueden actualizarse eficientemente con nuevos tokens, una propiedad importante en el modelado de secuencias. Para resolver esto, (3) introducimos un nuevo método eficiente para calcular la salida RNN de atención de muchos a muchos basado en el algoritmo de escaneo de prefijo paralelo. Basándonos en la nueva formulación de atención, (4) presentamos Aaren, un módulo basado en atención que no solo puede (i) ser entrenado en paralelo (como los Transformers) sino también (ii) actualizarse eficientemente con nuevos tokens, requiriendo solo memoria constante para inferencias (como las RNN tradicionales). Empíricamente, mostramos que Aaren logra un rendimiento comparable al de los Transformers en 38 conjuntos de datos distribuidos en cuatro escenarios populares de problemas secuenciales: aprendizaje por refuerzo, pronóstico de eventos, clasificación de series temporales y tareas de pronóstico de series temporales, siendo además más eficiente en tiempo y memoria.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Leo Feng

Frederick Tung

Hossein Hajimirsadeghi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Atención como una RNN

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study