Key points are not available for this paper at this time.
A Atenção Tensorial, uma atenção multi-visão capaz de capturar correlações de ordem elevada entre múltiplas modalidades, pode superar as limitações representacionais da atenção matricial clássica. Entretanto, a complexidade temporal (n³) da atenção tensorial representa um obstáculo significativo para sua implementação prática em transformers, onde n é o comprimento da sequência de entrada. Neste trabalho, provamos que o gradiente retropropagado do treinamento da atenção tensorial pode ser calculado em tempo quase linear n^{1+o(1)}, a mesma complexidade de sua computação direta sob a suposição de entradas limitadas. Fornecemos uma solução em forma fechada para o gradiente e propomos um método rápido de cálculo utilizando métodos de aproximação polinomial e truques de álgebra tensorial. Além disso, provamos a necessidade e rigidez de nossa suposição por meio de análise de dificuldade, mostrando que seu enfraquecimento leve torna o problema do gradiente insolúvel em tempo verdadeiramente subcúbico. Nossos resultados teóricos estabelecem a viabilidade do treinamento eficiente de transformers de ordem superior e podem facilitar aplicações práticas das arquiteturas de atenção tensorial.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiuxiang Gu
Yingyu Liang
Zhenmei Shi
Building similarity graph...
Analyzing shared references across papers
Loading...
Gu et al. (Sat,) estudaram essa questão.
www.synapsesocial.com/papers/68e686bfb6db64358760f613 — DOI: https://doi.org/10.48550/arxiv.2405.16411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: