Retrieval-augmented Generation (RAG) erweitert große Sprachmodelle (LLMs) mit externem Wissen, verursacht jedoch aufgrund langer abgerufener Kontexte erhebliche Inferenzkosten. Während Kontextkompression dieses Problem mildert, verwenden bestehende Methoden feste Kompressionsraten, die einfache Anfragen überkomprimieren oder komplexe unterkomprimieren. Wir schlagen Adaptive Context Compression für RAG (ACC-RAG) vor, ein Framework, das die Kompressionsraten dynamisch basierend auf der Eingabekomplexität anpasst und so die Inferenz-Effizienz optimiert, ohne Genauigkeit einzubüßen. ACC-RAG kombiniert einen hierarchischen Kompressor (für mehrgranulare Einbettungen) mit einem Kontextselektor, um minimale ausreichende Informationen zu bewahren, ähnlich dem menschlichen Überfliegen. Bewertet an Wikipedia und fünf QA-Datensätzen übertrifft ACC-RAG Methoden mit festen Raten und erreicht über 4-mal schnellere Inferenz im Vergleich zu standardmäßigem RAG, während es die Genauigkeit beibehält oder verbessert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuyu Guo
Zhaochun Ren
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68d4764731b076d99fa6df88 — DOI: https://doi.org/10.48550/arxiv.2507.22931