March 15, 2024Open Access

Uma análise dos mecanismos de atenção e sua variação no transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Transformer é um modelo de aprendizado de máquina baseado no mecanismo de atenção, amplamente utilizado. Quando o modelo Transformer foi proposto inicialmente, ele gradualmente desenvolveu muitas variantes e foi promovido e aplicado em diversos campos, tornando-se uma parte importante da pesquisa nas áreas de aprendizado profundo. No entanto, o mecanismo crítico de atenção dos Transformers apresenta problemas como complexidade quadrática que afetam a velocidade computacional e a eficiência do processamento de dados. Para atender às necessidades de processamento de dados e computação relacionada, foram feitos inúmeros esforços para melhorar o mecanismo de atenção nos Transformers em diferentes áreas de trabalho. Este artigo fornece principalmente uma visão geral dos avanços recentes na pesquisa sobre o mecanismo de atenção nos Transformers. Seleciona estudos representativos de várias direções do trabalho de melhoria da atenção para introduzir, a fim de explorar as tendências mais recentes da pesquisa nesse campo e estabelecer uma base para apontar potenciais direções de pesquisa para trabalhos futuros e aprimorar ainda mais o desempenho dos Transformers.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuzhong Chen

Hongren Pu

Qu Yang

Journals

Applied and Computational Engineering

Actions

Institutions

Sichuan University

Taiyuan University of Technology

Xi’an Jiaotong-Liverpool University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Uma análise dos mecanismos de atenção e sua variação no transformer

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider