Das Verständnis langer Videos (LVU) bleibt eine große Herausforderung für bestehende multimodale große Sprachmodelle (MLLMs), hauptsächlich aufgrund der hohen Rechenkosten. Aktuelle Ansätze untersuchen KV-Kompression zur Milderung dieses Problems, leiden jedoch häufig unter erheblichen Informationsverlusten bei hohen Kompressionsraten. In diesem Papier stellen wir Video-X²L vor, das flexible Erhaltung kritischer Videoinformationen für jede LVU-Aufgabe ermöglicht. Video-X²L umfasst zwei Hauptoperationen. Die erste nennt sich bi-level KV-Kompression. Während der Pre-Filling-Phase des MLLM erzeugt Video-X²L zwei Arten komprimierter KVs: gering komprimierte KVs (L-KVs) zur Erfassung fein granulärer Videodetails und hoch komprimierte KVs (H-KVs) für kompakte Video-Repräsentationen. Die zweite Operation heißt selektives KV-Nachladen. Während der Dekodierphase des MLLM lädt Video-X²L selektiv L-KVs für die wichtigsten Videoabschnitte nach und verwendet für weniger wichtige Abschnitte H-KVs. Dies erlaubt dem MLLM, aufgabenspezifische Informationen voll auszunutzen und gleichzeitig die Gesamtkontinuität zu bewahren. Video-X²L ist einfach, aber effektiv: Es benötigt kein zusätzliches Training und ist direkt kompatibel mit bestehenden KV-komprimierbaren MLLMs. Wir bewerten Video-X²L anhand verschiedener populärer LVU-Benchmarks, darunter VideoMME, MLVU, LongVideoBench und VNBench. Unsere Ergebnisse zeigen, dass Video-X²L bestehende Methoden zur KV-Kompression deutlich übertrifft und gleichzeitig erheblich Rechenkosten einspart.
Building similarity graph...
Analyzing shared references across papers
Loading...
Minghao Qin
Chi‐Wang Shu
Peitian Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Qin et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68f04acce559138a1a06e755 — DOI: https://doi.org/10.48550/arxiv.2506.21184
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: