Técnicas de compressão de tokens emergiram recentemente como ferramentas poderosas para acelerar a inferência de Vision Transformer (ViT) em visão computacional. Devido à complexidade computacional quadrática em relação ao comprimento da sequência de tokens, esses métodos visam remover tokens menos informativos antes das camadas de atenção para melhorar a taxa de inferência. Embora numerosos estudos tenham explorado vários trade-offs entre precisão e eficiência em ViTs de grande escala, duas lacunas críticas permanecem. Primeiro, existe a falta de uma pesquisa unificada que categorize e compare sistematicamente abordagens de compressão de tokens com base em suas estratégias principais (por exemplo, pruning, merging ou híbrida) e configurações de implantação (por exemplo, fine-tuning vs. plug-in). Segundo, a maioria dos benchmarks é limitada a modelos ViT padrão (por exemplo, ViT-B, ViT-L), deixando em aberto a questão de saber se tais métodos permanecem eficazes quando aplicados a transformers estruturalmente comprimidos, que são cada vez mais implantados em dispositivos edge com recursos limitados. Para abordar essas lacunas, apresentamos a primeira taxonomia sistemática e estudo comparativo de métodos de compressão de tokens, e avaliamos técnicas representativas em arquiteturas ViT padrão e compactas. Nossos experimentos revelam que, embora os métodos de compressão de tokens sejam eficazes para ViTs de uso geral, eles frequentemente têm desempenho inferior quando aplicados diretamente a designs compactos. Essas descobertas não apenas fornecem insights práticos, mas também abrem o caminho para pesquisas futuras na adaptação de técnicas de otimização de tokens para redes baseadas em transformers compactos para aplicações de Edge AI e agentes de IA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Phat Nguyen
Ngai‐Man Cheung
Building similarity graph...
Analyzing shared references across papers
Loading...
Nguyen et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68de5da783cbc991d0a20abc — DOI: https://doi.org/10.48550/arxiv.2507.09702
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: