March 3, 2024Open Access

Necesitas Prestar Mejor Atención

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Introducimos tres nuevos mecanismos de atención que superan la atención multi-cabeza estándar en términos de eficiencia y capacidades de aprendizaje, mejorando así el rendimiento y la aplicabilidad más amplia de los modelos Transformer. Nuestra primera contribución es la Atención Optimizada, que funciona de manera similar a la atención estándar, pero tiene 3/4 de los parámetros y una multiplicación de matrices menos por cabeza. A continuación, presentamos la Atención Eficiente, que rinde igual que la atención estándar con solo la mitad de parámetros y dos multiplicaciones de matrices menos por cabeza, y es hasta dos veces más rápida que la atención estándar. Finalmente, presentamos la Super Atención, que supera a la atención estándar por un margen significativo tanto en tareas de visión como de procesamiento de lenguaje natural, mientras tiene menos parámetros y multiplicaciones de matrices. Además de proporcionar comparaciones matemáticas rigurosas, evaluamos los mecanismos de atención presentados en los conjuntos de datos MNIST, CIFAR100, IMDB Movie Reviews y Amazon Reviews.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mehran Hosseini

Peyman Hosseini

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Necesitas Prestar Mejor Atención

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider