Key points are not available for this paper at this time.
Tensor Attention, eine Multi-View-Attention, die in der Lage ist, höherstufige Korrelationen zwischen mehreren Modalitäten zu erfassen, kann die darstellungsbezogenen Beschränkungen klassischer Matrix-Attention überwinden. Allerdings stellt die (n³) Zeitkomplexität der Tensor Attention ein erhebliches Hindernis für ihre praktische Umsetzung in Transformern dar, wobei n die Eingabesequenzlänge ist. In dieser Arbeit beweisen wir, dass der rückwärtige Gradient des Tensor-Attention-Trainings in nahezu linearer Zeit n^{1+o(1)} berechnet werden kann, mit der gleichen Komplexität wie seine Vorwärtsberechnung unter der Annahme beschränkter Einträge. Wir liefern eine geschlossene Form der Gradientenlösung und schlagen eine schnelle Berechnungsmethode vor, die Polynomapproximation und tensoralgebraische Tricks nutzt. Darüber hinaus beweisen wir durch Komplexitätsanalysen die Notwendigkeit und Strenge unserer Annahme und zeigen, dass eine leichte Abschwächung die Gradientenberechnung in wirklich subkubischer Zeit unlösbar macht. Unsere theoretischen Ergebnisse etablieren die Machbarkeit eines effizienten Trainings höherstufiger Transformer und können praktische Anwendungen von Tensor-Attention-Architekturen fördern.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiuxiang Gu
Yingyu Liang
Zhenmei Shi
Building similarity graph...
Analyzing shared references across papers
Loading...
Gu et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e686bfb6db64358760f613 — DOI: https://doi.org/10.48550/arxiv.2405.16411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: