Los puntos clave no están disponibles para este artículo en este momento.
El mecanismo de autoatención es la clave del Transformer pero a menudo se critica por sus demandas computacionales. Trabajos previos sobre poda de tokens motivan sus métodos desde la perspectiva de la redundancia computacional, pero aún necesitan cargar la red completa y requieren los mismos costos de memoria. Este artículo presenta una estrategia novedosa que simplifica transformers de visión y reduce la carga computacional mediante la remoción selectiva de capas de atención no esenciales, guiada por consideraciones de entropía. Identificamos que con respecto a la capa de atención en los bloques inferiores, sus capas MLP subsecuentes, es decir, dos capas feed-forward, pueden elicitar la misma cantidad de entropía. Mientras tanto, los MLP acompañantes están subexplotados ya que exhiben menor entropía de características en comparación con esos MLP en los bloques superiores. Por lo tanto, proponemos integrar las capas de atención poco informativas en sus contrapartes subsecuentes degenerándolas en un mapeo idéntico, generando solo MLP en ciertos bloques del transformer. Resultados experimentales en ImageNet-1k muestran que el método propuesto puede eliminar el 40% de la capa de atención de DeiT-B, mejorando el rendimiento y la limitación de memoria sin comprometer el desempeño. El código está disponible en https://github.com/sihaoevery/lambdaᵥit.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sihao Lin
Pumeng Lyu
Dongrui Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Lin et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e700efb6db64358767b2f7 — DOI: https://doi.org/10.48550/arxiv.2404.05657
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: