June 24, 2024Open Access

Sparsam ist Schneller und Weniger ist Mehr: Effiziente Sparse Attention für Langstrecken-Transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Die effiziente Verarbeitung langer Sequenzen in autoregressiven Transformern, insbesondere innerhalb eines erweiterten Kontextfensters, stellt aufgrund der quadratischen Rechenkomplexität und des erheblichen KV-Speicherbedarfs, die in Selbst-Attention-Mechanismen inhärent sind, erhebliche Herausforderungen dar. In dieser Arbeit stellen wir SPARSEK Attention vor, einen neuartigen Sparse-Attention-Mechanismus, der entwickelt wurde, um diese Rechen- und Speicherhindernisse zu überwinden und gleichzeitig die Leistung zu erhalten. Unser Ansatz integriert ein Scoring-Netzwerk und einen differenzierbaren Top-k-Maskenoperator, SPARSEK, um für jede Abfrage eine konstante Anzahl von KV-Paaren auszuwählen, wodurch eine gradientenbasierte Optimierung ermöglicht wird. Dadurch bietet SPARSEK Attention eine lineare Zeitkomplexität und einen konstanten Speicherbedarf während der Generierung. Experimentelle Ergebnisse zeigen, dass SPARSEK Attention frühere Sparse-Attention-Methoden übertrifft und insbesondere beim Sprachmodellieren und bei nachgelagerten Aufgaben signifikante Geschwindigkeitsverbesserungen sowohl beim Training als auch bei der Inferenz bietet. Darüber hinaus kann unsere Methode nahtlos in vortrainierte Large Language Models (LLMs) mit minimalem Fein-Tuning integriert werden und bietet so eine praktische Lösung für die effektive Verwaltung von Langstreckenabhängigkeiten in vielfältigen Anwendungen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chao Lou

Zixia Jia

Zilong Zheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Sparsam ist Schneller und Weniger ist Mehr: Effiziente Sparse Attention für Langstrecken-Transformer

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider