March 24, 2024Open Access

Cached Transformers: Verbesserung von Transformern mit differenzierbarem Speicher-Cache

Key Points

Key points are not available for this paper at this time.

Abstract

Diese Arbeit stellt ein neues Transformer-Modell namens Cached Transformer vor, das Gated Recurrent Cached (GRC) Attention verwendet, um den Self-Attention-Mechanismus mit einem differenzierbaren Speicher-Cache für Tokens zu erweitern. GRC Attention ermöglicht es, sowohl frühere als auch aktuelle Tokens zu beachten, wodurch das rezeptive Feld der Aufmerksamkeit vergrößert wird und langfristige Abhängigkeiten erkundet werden können. Durch die Nutzung einer rekurrenten Gating-Einheit zur kontinuierlichen Aktualisierung des Caches erzielt unser Modell bedeutende Fortschritte in sechs Sprach- und Bildverarbeitungsaufgaben, einschließlich Sprachmodellierung, maschineller Übersetzung, ListOPs, Bildklassifizierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus übertrifft unser Ansatz frühere speicherbasierte Techniken bei Aufgaben wie der Sprachmodellierung und zeigt die Fähigkeit, auf ein breiteres Spektrum von Situationen angewendet zu werden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhaoyang Zhang

Wenqi Shao

Yixiao Ge

Actions

Institutions

University of Hong Kong

Chinese University of Hong Kong

Tencent (China)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Cached Transformers: Verbesserung von Transformern mit differenzierbarem Speicher-Cache

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study