Der Betrieb von Large Language Models (LLMs) auf Edge-Geräten ist entscheidend für die Verringerung der Latenz, die Verbesserung der Echtzeitverarbeitung und die Erhöhung der Privatsphäre. Durch die direkte Inferenz auf dem Gerät müssen Daten nicht an die Cloud gesendet werden, was schnellere Reaktionen ermöglicht und die Abhängigkeit von Netzwerkverbindungen reduziert. Die Implementierung von LLMs auf Edge-Geräten stellt jedoch Herausforderungen dar, insbesondere bei der Verwaltung von Key-Value (KV)-Caches, die eine zentrale Rolle im LLM-Serving spielen. Mit zunehmender Länge des Eingabetextes wächst die Größe des KV-Caches linear mit der Sequenzlänge, was zu einem erheblichen Speicherbedarf und Datenzugriffskosten führt. Andererseits verfügen Edge-Geräte über begrenzten Speicher und Rechenleistung, was die Speicherung und effiziente Nutzung der großen Caches für die LLM-Inferenz erschwert. Um den erheblichen Overhead durch den KV-Cache zu mindern, schlagen wir vor, Embedded DRAM (eDRAM) als primären Speicher für das LLM-Serving auf Edge-Geräten zu verwenden, da dieser im Vergleich zu SRAM eine höhere Speicherdichte bietet. Allerdings erfordert eDRAM zur Sicherstellung der Datenintegrität periodische Refresh-Operationen, die energieintensiv sind. Zur Reduzierung der eDRAM-Kosten und zur Verbesserung der Systemleistung schlagen wir Kelle vor, eine Software-Hardware-Co-Design-Lösung, optimiert für den Einsatz von LLMs auf eDRAM-basierten Edge-Systemen. In Kombination mit unseren feinkörnigen Algorithmen zur Speicherbereinigung, Neuberechnung und Refresh-Steuerung erzielt der Kelle-Beschleuniger eine 3,9-fache Beschleunigung und eine 4,5-fache Energieeinsparung gegenüber bestehenden Baseline-Lösungen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tianhua Xia
Sai Qian Zhang
New York University
Building similarity graph...
Analyzing shared references across papers
Loading...
Xia et al. (Fri,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68f4b10d3d9d770bbc696e8b — DOI: https://doi.org/10.1145/3725843.3756071
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: