What type of study is this?

This is a Quantitative Study study.

September 23, 2025Open Access

Dynamische Kontextkompression für effizientes RAG

Key Points

ACC-RAG steigert die Inferenz-Effizienz und verbessert die Genauigkeit, indem es die Einschränkungen fester Kompressionsraten bei der Kontextkompression überwindet.
Die dynamische Anpassung der Kompressionsraten führte zu mehr als viermal schnellerer Inferenz im Vergleich zu standardmäßigen retrieval-augmented Generationstechniken.
Getestet auf mehreren Datensätzen kombiniert ACC-RAG hierarchische Kompression mit Kontextselektion für eine optimale Informationsbewahrung.
Diese adaptive Methode zeigt das Potenzial, die Leistung großer Sprachmodelle in praktischen Anwendungen zu optimieren.

Abstract

Retrieval-augmented Generation (RAG) erweitert große Sprachmodelle (LLMs) mit externem Wissen, verursacht jedoch aufgrund langer abgerufener Kontexte erhebliche Inferenzkosten. Während Kontextkompression dieses Problem mildert, verwenden bestehende Methoden feste Kompressionsraten, die einfache Anfragen überkomprimieren oder komplexe unterkomprimieren. Wir schlagen Adaptive Context Compression für RAG (ACC-RAG) vor, ein Framework, das die Kompressionsraten dynamisch basierend auf der Eingabekomplexität anpasst und so die Inferenz-Effizienz optimiert, ohne Genauigkeit einzubüßen. ACC-RAG kombiniert einen hierarchischen Kompressor (für mehrgranulare Einbettungen) mit einem Kontextselektor, um minimale ausreichende Informationen zu bewahren, ähnlich dem menschlichen Überfliegen. Bewertet an Wikipedia und fünf QA-Datensätzen übertrifft ACC-RAG Methoden mit festen Raten und erreicht über 4-mal schnellere Inferenz im Vergleich zu standardmäßigem RAG, während es die Genauigkeit beibehält oder verbessert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuyu Guo

Zhaochun Ren

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Dynamische Kontextkompression für effizientes RAG

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study