Key points are not available for this paper at this time.
Diese Arbeit stellt ein neues Transformer-Modell namens Cached Transformer vor, das Gated Recurrent Cached (GRC) Attention verwendet, um den Self-Attention-Mechanismus mit einem differenzierbaren Speicher-Cache für Tokens zu erweitern. GRC Attention ermöglicht es, sowohl frühere als auch aktuelle Tokens zu beachten, wodurch das rezeptive Feld der Aufmerksamkeit vergrößert wird und langfristige Abhängigkeiten erkundet werden können. Durch die Nutzung einer rekurrenten Gating-Einheit zur kontinuierlichen Aktualisierung des Caches erzielt unser Modell bedeutende Fortschritte in sechs Sprach- und Bildverarbeitungsaufgaben, einschließlich Sprachmodellierung, maschineller Übersetzung, ListOPs, Bildklassifizierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus übertrifft unser Ansatz frühere speicherbasierte Techniken bei Aufgaben wie der Sprachmodellierung und zeigt die Fähigkeit, auf ein breiteres Spektrum von Situationen angewendet zu werden.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhaoyang Zhang
Wenqi Shao
Yixiao Ge
University of Hong Kong
Chinese University of Hong Kong
Tencent (China)
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e72962b6db6435876a3402 — DOI: https://doi.org/10.1609/aaai.v38i15.29636