Los puntos clave no están disponibles para este artículo en este momento.
Los transformers han revolucionado el aprendizaje profundo en numerosos campos, incluyendo el procesamiento del lenguaje natural, la visión por computadora y el procesamiento de audio. Su fortaleza radica en su mecanismo de atención, que permite descubrir relaciones complejas en la entrada. Sin embargo, la complejidad cuadrática en tiempo y memoria de este mecanismo plantea desafíos para entradas más grandes. Investigadores están explorando modelos como Linear Unified Nested Attention (Luna) o Memory Augmented Transformer, que aprovechan la memoria externa aprendible para reducir la complejidad del cálculo de atención hasta lineal, o para propagar información entre fragmentos en el procesamiento por fragmentos. Nuestros hallazgos desafían el pensamiento convencional sobre estos modelos, revelando que la interfaz directa con la memoria mediante una operación de atención es subóptima, y que el rendimiento puede mejorar considerablemente filtrando la señal de entrada antes de la comunicación con la memoria.
Building similarity graph...
Analyzing shared references across papers
Loading...
Uladzislau Yorsh
Martin Holeňa
Ondřej Bojar
Building similarity graph...
Analyzing shared references across papers
Loading...
Yorsh et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e718f1b6db64358769252c — DOI: https://doi.org/10.48550/arxiv.2404.00798
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: