Key points are not available for this paper at this time.
O mecanismo de Atenção é o principal componente da arquitetura Transformer e, desde sua introdução, tem levado a avanços significativos em Deep Learning que abrangem muitos domínios e múltiplas tarefas. O Mecanismo de Atenção foi utilizado em Visão Computacional como o Vision Transformer ViT, e seu uso se expandiu para muitas tarefas no domínio da visão, como classificação, segmentação, detecção de objetos e geração de imagens. Embora esse mecanismo seja muito expressivo e capaz, ele possui a desvantagem de ser computacionalmente caro e requerer conjuntos de dados de tamanho considerável para otimização eficaz. Para resolver essas limitações, muitos designs foram propostos na literatura para reduzir a carga computacional e aliviar os requisitos de tamanho dos dados. Exemplos dessas tentativas no domínio da visão são o MLP-Mixer, o Conv-Mixer, o Perciver-IO e muitos mais. Este artigo apresenta um novo bloco computacional como alternativa ao bloco ViT padrão que reduz os encargos computacionais substituindo as camadas normais de Atenção por uma estrutura Network in Network que aprimora a abordagem estática do MLP Mixer com um sistema dinâmico de aprendizado de uma função element-wise de gating por meio de um processo de mistura de tokens. Experimentações extensivas mostram que o design proposto oferece melhor desempenho que as arquiteturas base em múltiplos conjuntos de dados aplicados na tarefa de classificação de imagens no domínio da visão.
Building similarity graph...
Analyzing shared references across papers
Loading...
Abdullah Nazhat Abdullah
Tarkan Aydın
Building similarity graph...
Analyzing shared references across papers
Loading...
Abdullah et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e75ddfb6db6435876d5297 — DOI: https://doi.org/10.48550/arxiv.2403.02411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: