Los puntos clave no están disponibles para este artículo en este momento.
Introducimos tres nuevos mecanismos de atención que superan la atención multi-cabeza estándar en términos de eficiencia y capacidades de aprendizaje, mejorando así el rendimiento y la aplicabilidad más amplia de los modelos Transformer. Nuestra primera contribución es la Atención Optimizada, que funciona de manera similar a la atención estándar, pero tiene 3/4 de los parámetros y una multiplicación de matrices menos por cabeza. A continuación, presentamos la Atención Eficiente, que rinde igual que la atención estándar con solo la mitad de parámetros y dos multiplicaciones de matrices menos por cabeza, y es hasta dos veces más rápida que la atención estándar. Finalmente, presentamos la Super Atención, que supera a la atención estándar por un margen significativo tanto en tareas de visión como de procesamiento de lenguaje natural, mientras tiene menos parámetros y multiplicaciones de matrices. Además de proporcionar comparaciones matemáticas rigurosas, evaluamos los mecanismos de atención presentados en los conjuntos de datos MNIST, CIFAR100, IMDB Movie Reviews y Amazon Reviews.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mehran Hosseini
Peyman Hosseini
Building similarity graph...
Analyzing shared references across papers
Loading...
Hosseini et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e75ef7b6db6435876d5d0f — DOI: https://doi.org/10.48550/arxiv.2403.01643
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: