Los puntos clave no están disponibles para este artículo en este momento.
La aparición de los Transformers marcó un avance significativo en el modelado de secuencias, proporcionando una arquitectura de alto rendimiento capaz de aprovechar el paralelismo de GPU. Sin embargo, los Transformers son computacionalmente costosos en tiempo de inferencia, limitando sus aplicaciones, particularmente en entornos con pocos recursos (por ejemplo, dispositivos móviles e integrados). Para abordar esto, (1) comenzamos mostrando que la atención puede ser vista como una Red Neuronal Recurrente (RNN) especial con la capacidad de calcular eficientemente su salida RNN de muchos a uno. Luego (2) mostramos que modelos basados en atención populares como los Transformers pueden verse como variantes de RNN. Sin embargo, a diferencia de las RNN tradicionales (por ejemplo, LSTMs), estos modelos no pueden actualizarse eficientemente con nuevos tokens, una propiedad importante en el modelado de secuencias. Para resolver esto, (3) introducimos un nuevo método eficiente para calcular la salida RNN de atención de muchos a muchos basado en el algoritmo de escaneo de prefijo paralelo. Basándonos en la nueva formulación de atención, (4) presentamos Aaren, un módulo basado en atención que no solo puede (i) ser entrenado en paralelo (como los Transformers) sino también (ii) actualizarse eficientemente con nuevos tokens, requiriendo solo memoria constante para inferencias (como las RNN tradicionales). Empíricamente, mostramos que Aaren logra un rendimiento comparable al de los Transformers en 38 conjuntos de datos distribuidos en cuatro escenarios populares de problemas secuenciales: aprendizaje por refuerzo, pronóstico de eventos, clasificación de series temporales y tareas de pronóstico de series temporales, siendo además más eficiente en tiempo y memoria.
Building similarity graph...
Analyzing shared references across papers
Loading...
Leo Feng
Frederick Tung
Hossein Hajimirsadeghi
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e68e7db6db643587615cc0 — DOI: https://doi.org/10.48550/arxiv.2405.13956