April 8, 2024Open Access

MLP Puede Ser Un Buen Aprendiz de Transformer

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El mecanismo de autoatención es la clave del Transformer pero a menudo se critica por sus demandas computacionales. Trabajos previos sobre poda de tokens motivan sus métodos desde la perspectiva de la redundancia computacional, pero aún necesitan cargar la red completa y requieren los mismos costos de memoria. Este artículo presenta una estrategia novedosa que simplifica transformers de visión y reduce la carga computacional mediante la remoción selectiva de capas de atención no esenciales, guiada por consideraciones de entropía. Identificamos que con respecto a la capa de atención en los bloques inferiores, sus capas MLP subsecuentes, es decir, dos capas feed-forward, pueden elicitar la misma cantidad de entropía. Mientras tanto, los MLP acompañantes están subexplotados ya que exhiben menor entropía de características en comparación con esos MLP en los bloques superiores. Por lo tanto, proponemos integrar las capas de atención poco informativas en sus contrapartes subsecuentes degenerándolas en un mapeo idéntico, generando solo MLP en ciertos bloques del transformer. Resultados experimentales en ImageNet-1k muestran que el método propuesto puede eliminar el 40% de la capa de atención de DeiT-B, mejorando el rendimiento y la limitación de memoria sin comprometer el desempeño. El código está disponible en https://github.com/sihaoevery/lambdaᵥit.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sihao Lin

Pumeng Lyu

Dongrui Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MLP Puede Ser Un Buen Aprendiz de Transformer

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider