May 25, 2024Open Access

Tensor-Attention-Training: Nachweislich effizientes Lernen höherstufiger Transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Tensor Attention, eine Multi-View-Attention, die in der Lage ist, höherstufige Korrelationen zwischen mehreren Modalitäten zu erfassen, kann die darstellungsbezogenen Beschränkungen klassischer Matrix-Attention überwinden. Allerdings stellt die (n³) Zeitkomplexität der Tensor Attention ein erhebliches Hindernis für ihre praktische Umsetzung in Transformern dar, wobei n die Eingabesequenzlänge ist. In dieser Arbeit beweisen wir, dass der rückwärtige Gradient des Tensor-Attention-Trainings in nahezu linearer Zeit n^{1+o(1)} berechnet werden kann, mit der gleichen Komplexität wie seine Vorwärtsberechnung unter der Annahme beschränkter Einträge. Wir liefern eine geschlossene Form der Gradientenlösung und schlagen eine schnelle Berechnungsmethode vor, die Polynomapproximation und tensoralgebraische Tricks nutzt. Darüber hinaus beweisen wir durch Komplexitätsanalysen die Notwendigkeit und Strenge unserer Annahme und zeigen, dass eine leichte Abschwächung die Gradientenberechnung in wirklich subkubischer Zeit unlösbar macht. Unsere theoretischen Ergebnisse etablieren die Machbarkeit eines effizienten Trainings höherstufiger Transformer und können praktische Anwendungen von Tensor-Attention-Architekturen fördern.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiuxiang Gu

Yingyu Liang

Zhenmei Shi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Tensor-Attention-Training: Nachweislich effizientes Lernen höherstufiger Transformer

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider