Transformer-Netzwerke, angetrieben durch Selbstaufmerksamkeit, sind zentral für große Sprachmodelle. In generativen Transformern nutzt die Selbstaufmerksamkeit Cache-Speicher, um Token-Projektionen zu speichern und so eine Neuberechnung bei jedem Zeitschritt zu vermeiden. Allerdings müssen GPU-gespeicherte Projektionen bei jedem neuen Generierungsschritt in statischen RAM geladen werden, was Latenz- und Energieengpässe verursacht. Hier stellen wir eine maßgeschneiderte Selbstaufmerksamkeits-In-Memory-Computing-Architektur auf Basis neuartiger ladungsbasierter Speicher, sogenannter Gain-Zellen, vor, die effizient beschrieben werden können, um neue Tokens während der Sequenzgenerierung zu speichern und parallele analoge Skalarprodukte zu ermöglichen, die für Selbstaufmerksamkeit erforderlich sind. Allerdings führen die analogen Gain-Zellen-Schaltungen Nichtidealitäten und Einschränkungen ein, die eine direkte Übertragung vortrainierter Modelle verhindern. Um dieses Problem zu umgehen, entwerfen wir einen Initialisierungsalgorithmus, der eine Textverarbeitungsleistung vergleichbar mit GPT-2 ohne Neutraining von Grund auf erzielt. Unsere Architektur reduziert die Aufmerksamkeitlatenz und den Energieverbrauch um bis zu zwei bzw. vier Größenordnungen im Vergleich zu GPUs und stellt damit einen bedeutenden Schritt in Richtung ultraschneller, energieeffizienter generativer Transformer dar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Nathan Leroux
Paul Manea
Chirag Sudarshan
Forschungszentrum Jülich
Building similarity graph...
Analyzing shared references across papers
Loading...
Leroux et al. (Mittwoch) untersuchten diese Frage.
www.synapsesocial.com/papers/69730ef2c8125b09b0d1ed33 — DOI: https://doi.org/10.34734/fzj-2026-00225
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: