What question did this study set out to answer?

Die Studie zielt darauf ab, die Effizienz und Geschwindigkeit großer Sprachmodelle durch eine innovative In-Memory-Computing-Architektur zu verbessern.

January 23, 2026Open Access

Analoges In-Memory-Computing-Attention-Mechanismus für schnelle und energieeffiziente große Sprachmodelle

Key Points

Die Studie zielt darauf ab, die Effizienz und Geschwindigkeit großer Sprachmodelle durch eine innovative In-Memory-Computing-Architektur zu verbessern.
Entwicklung eines maßgeschneiderten Selbstaufmerksamkeitsmechanismus unter Verwendung von Gain-Zellen für In-Memory-Computing.
Entwurf eines Initialisierungsalgorithmus zur Anpassung existierender Modelle an die neue Architektur.
Vergleich der Leistung der neuen Architektur mit traditionellen GPU-basierten Systemen.
Erreicht eine Reduktion der Aufmerksamkeitslatenz um bis zu zwei Größenordnungen.
Senkte den Energieverbrauch um bis zu vier Größenordnungen im Vergleich zu GPUs.
Erhielt eine vergleichbare Leistung zu GPT-2 ohne Neuinitialisierung des Trainings.

Abstract

Transformer-Netzwerke, angetrieben durch Selbstaufmerksamkeit, sind zentral für große Sprachmodelle. In generativen Transformern nutzt die Selbstaufmerksamkeit Cache-Speicher, um Token-Projektionen zu speichern und so eine Neuberechnung bei jedem Zeitschritt zu vermeiden. Allerdings müssen GPU-gespeicherte Projektionen bei jedem neuen Generierungsschritt in statischen RAM geladen werden, was Latenz- und Energieengpässe verursacht. Hier stellen wir eine maßgeschneiderte Selbstaufmerksamkeits-In-Memory-Computing-Architektur auf Basis neuartiger ladungsbasierter Speicher, sogenannter Gain-Zellen, vor, die effizient beschrieben werden können, um neue Tokens während der Sequenzgenerierung zu speichern und parallele analoge Skalarprodukte zu ermöglichen, die für Selbstaufmerksamkeit erforderlich sind. Allerdings führen die analogen Gain-Zellen-Schaltungen Nichtidealitäten und Einschränkungen ein, die eine direkte Übertragung vortrainierter Modelle verhindern. Um dieses Problem zu umgehen, entwerfen wir einen Initialisierungsalgorithmus, der eine Textverarbeitungsleistung vergleichbar mit GPT-2 ohne Neutraining von Grund auf erzielt. Unsere Architektur reduziert die Aufmerksamkeitlatenz und den Energieverbrauch um bis zu zwei bzw. vier Größenordnungen im Vergleich zu GPUs und stellt damit einen bedeutenden Schritt in Richtung ultraschneller, energieeffizienter generativer Transformer dar.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Nathan Leroux

Paul Manea

Chirag Sudarshan

Actions

Institutions

Forschungszentrum Jülich

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Analoges In-Memory-Computing-Attention-Mechanismus für schnelle und energieeffiziente große Sprachmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider