What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

Task-Aware KV-Kompression für kosteneffektives Verständnis langer Videos

Key Points

Video-X^2L verbessert die Leistung beim Verständnis langer Videos wesentlich bei gleichzeitiger Reduzierung der Rechenkosten.
Die Methode verwendet bi-level KV-Kompression mit gering und hoch komprimierten KVs, um Detailtreue und Kompaktheit auszubalancieren.
Selektives KV-Nachladen ermöglicht dem Modell, kritische Informationen während der Videobearbeitung effizient zu nutzen.
Die Auswertung auf verschiedenen Benchmarks zeigt die deutliche Überlegenheit von Video-X^2L gegenüber bestehenden Kompressionstechniken.

Abstract

Das Verständnis langer Videos (LVU) bleibt eine große Herausforderung für bestehende multimodale große Sprachmodelle (MLLMs), hauptsächlich aufgrund der hohen Rechenkosten. Aktuelle Ansätze untersuchen KV-Kompression zur Milderung dieses Problems, leiden jedoch häufig unter erheblichen Informationsverlusten bei hohen Kompressionsraten. In diesem Papier stellen wir Video-X²L vor, das flexible Erhaltung kritischer Videoinformationen für jede LVU-Aufgabe ermöglicht. Video-X²L umfasst zwei Hauptoperationen. Die erste nennt sich bi-level KV-Kompression. Während der Pre-Filling-Phase des MLLM erzeugt Video-X²L zwei Arten komprimierter KVs: gering komprimierte KVs (L-KVs) zur Erfassung fein granulärer Videodetails und hoch komprimierte KVs (H-KVs) für kompakte Video-Repräsentationen. Die zweite Operation heißt selektives KV-Nachladen. Während der Dekodierphase des MLLM lädt Video-X²L selektiv L-KVs für die wichtigsten Videoabschnitte nach und verwendet für weniger wichtige Abschnitte H-KVs. Dies erlaubt dem MLLM, aufgabenspezifische Informationen voll auszunutzen und gleichzeitig die Gesamtkontinuität zu bewahren. Video-X²L ist einfach, aber effektiv: Es benötigt kein zusätzliches Training und ist direkt kompatibel mit bestehenden KV-komprimierbaren MLLMs. Wir bewerten Video-X²L anhand verschiedener populärer LVU-Benchmarks, darunter VideoMME, MLVU, LongVideoBench und VNBench. Unsere Ergebnisse zeigen, dass Video-X²L bestehende Methoden zur KV-Kompression deutlich übertrifft und gleichzeitig erheblich Rechenkosten einspart.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Minghao Qin

Chi‐Wang Shu

Peitian Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Task-Aware KV-Kompression für kosteneffektives Verständnis langer Videos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider