Key points are not available for this paper at this time.
Die effiziente Verarbeitung langer Sequenzen in autoregressiven Transformern, insbesondere innerhalb eines erweiterten Kontextfensters, stellt aufgrund der quadratischen Rechenkomplexität und des erheblichen KV-Speicherbedarfs, die in Selbst-Attention-Mechanismen inhärent sind, erhebliche Herausforderungen dar. In dieser Arbeit stellen wir SPARSEK Attention vor, einen neuartigen Sparse-Attention-Mechanismus, der entwickelt wurde, um diese Rechen- und Speicherhindernisse zu überwinden und gleichzeitig die Leistung zu erhalten. Unser Ansatz integriert ein Scoring-Netzwerk und einen differenzierbaren Top-k-Maskenoperator, SPARSEK, um für jede Abfrage eine konstante Anzahl von KV-Paaren auszuwählen, wodurch eine gradientenbasierte Optimierung ermöglicht wird. Dadurch bietet SPARSEK Attention eine lineare Zeitkomplexität und einen konstanten Speicherbedarf während der Generierung. Experimentelle Ergebnisse zeigen, dass SPARSEK Attention frühere Sparse-Attention-Methoden übertrifft und insbesondere beim Sprachmodellieren und bei nachgelagerten Aufgaben signifikante Geschwindigkeitsverbesserungen sowohl beim Training als auch bei der Inferenz bietet. Darüber hinaus kann unsere Methode nahtlos in vortrainierte Large Language Models (LLMs) mit minimalem Fein-Tuning integriert werden und bietet so eine praktische Lösung für die effektive Verwaltung von Langstreckenabhängigkeiten in vielfältigen Anwendungen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chao Lou
Zixia Jia
Zilong Zheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Lou et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e637feb6db6435875c9d78 — DOI: https://doi.org/10.48550/arxiv.2406.16747
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: