What type of study is this?

This is a Experimental Study study.

October 19, 2025

Kelle: Co-Design von KV-Caching und eDRAM für effizientes LLM-Serving im Edge-Computing

Key Points

Der Kelle-Beschleuniger zeigt eine 3,9-fache Beschleunigung bei der Inferenz großer Sprachmodelle auf Edge-Geräten und reduziert gleichzeitig den Energieverbrauch.
Die Kombination von Embedded-DRAM-Technologie mit optimiertem Speichermanagement adressiert die Herausforderungen großer Key-Value-Caches.
Feinkörnige Algorithmen für Speicherbereinigung und Refresh-Steuerung sind wesentlich, um signifikante Energieeinsparungen und Effizienz zu erreichen.
Begrenzte Rechenleistung auf Edge-Geräten erfordert innovative Ansätze zur Aufrechterhaltung der Leistung und zur Reduzierung des Overheads.

Abstract

Der Betrieb von Large Language Models (LLMs) auf Edge-Geräten ist entscheidend für die Verringerung der Latenz, die Verbesserung der Echtzeitverarbeitung und die Erhöhung der Privatsphäre. Durch die direkte Inferenz auf dem Gerät müssen Daten nicht an die Cloud gesendet werden, was schnellere Reaktionen ermöglicht und die Abhängigkeit von Netzwerkverbindungen reduziert. Die Implementierung von LLMs auf Edge-Geräten stellt jedoch Herausforderungen dar, insbesondere bei der Verwaltung von Key-Value (KV)-Caches, die eine zentrale Rolle im LLM-Serving spielen. Mit zunehmender Länge des Eingabetextes wächst die Größe des KV-Caches linear mit der Sequenzlänge, was zu einem erheblichen Speicherbedarf und Datenzugriffskosten führt. Andererseits verfügen Edge-Geräte über begrenzten Speicher und Rechenleistung, was die Speicherung und effiziente Nutzung der großen Caches für die LLM-Inferenz erschwert. Um den erheblichen Overhead durch den KV-Cache zu mindern, schlagen wir vor, Embedded DRAM (eDRAM) als primären Speicher für das LLM-Serving auf Edge-Geräten zu verwenden, da dieser im Vergleich zu SRAM eine höhere Speicherdichte bietet. Allerdings erfordert eDRAM zur Sicherstellung der Datenintegrität periodische Refresh-Operationen, die energieintensiv sind. Zur Reduzierung der eDRAM-Kosten und zur Verbesserung der Systemleistung schlagen wir Kelle vor, eine Software-Hardware-Co-Design-Lösung, optimiert für den Einsatz von LLMs auf eDRAM-basierten Edge-Systemen. In Kombination mit unseren feinkörnigen Algorithmen zur Speicherbereinigung, Neuberechnung und Refresh-Steuerung erzielt der Kelle-Beschleuniger eine 3,9-fache Beschleunigung und eine 4,5-fache Energieeinsparung gegenüber bestehenden Baseline-Lösungen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tianhua Xia

Sai Qian Zhang

Actions

Institutions

New York University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Kelle: Co-Design von KV-Caching und eDRAM für effizientes LLM-Serving im Edge-Computing

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider