What type of study is this?

This is a Experimental Study study.

October 1, 2025Open Access

MVQA: Mamba mit Unified Sampling für effiziente Videoqualitätsbewertung

Key Points

MVQA erreicht eine vergleichbare Leistung zu neuesten Methoden und ist dabei doppelt so schnell.
Durch die Nutzung von Unified Semantic and Distortion Sampling erfasst das Modell effektiv semantische und Qualitätsinformationen.
Das Mamba-Modell bietet eine lineare Komplexität bezüglich der Sequenzlänge und verbessert damit die Effizienz bei der Videoqualitätsbewertung.
Der vorgeschlagene Fusionsmechanismus minimiert die Rechenbelastung bei der Verarbeitung von doppelten Eingaben aus Videos mit unterschiedlicher Auflösung.

Abstract

Das schnelle Wachstum von hochauflösenden Videos mit langer Dauer stellt eine kritische Herausforderung für die effiziente Videoqualitätsbewertung (VQA) dar. Bestehende Forschungen gehen dieses Problem typischerweise mit zwei Hauptstrategien an: Reduzierung der Modellparameter und erneute Stichprobenziehung der Eingaben. Leichtgewichtige Convolutional Neural Networks (CNN) und Transformer haben jedoch oft Schwierigkeiten, Effizienz mit hoher Leistung zu verbinden, da eine Langstreckenmodellierung erforderlich ist. Kürzlich hat sich das Zustandsraummodell, insbesondere Mamba, als vielversprechende Alternative herauskristallisiert, da es eine lineare Komplexität bezüglich der Sequenzlänge bietet. Gleichzeitig hängt effiziente VQA stark von der Resampling langer Sequenzen zur Minimierung der Rechenkosten ab, wobei aktuelle Resampling-Methoden oft wesentliche semantische Informationen nur schwach bewahren. In dieser Arbeit präsentieren wir MVQA, ein Mamba-basiertes Modell für effiziente VQA zusammen mit einem neuartigen Unified Semantic and Distortion Sampling (USDS)-Ansatz. USDS kombiniert semantische Patch-Stichproben aus Videos mit niedriger Auflösung und Verzerrungs-Patch-Stichproben aus Videos mit Originalauflösung. Erstere erfassen semantisch dichte Regionen, während letztere kritische Verzerrungsdetails erhalten. Um eine erhöhte Rechenlast durch doppelte Eingaben zu vermeiden, schlagen wir einen Fusionsmechanismus mit vordefinierten Masken vor, der eine einheitliche Sampling-Strategie ermöglicht, die sowohl semantische als auch Qualitätsinformationen ohne zusätzliche Rechenbelastung erfasst. Experimente zeigen, dass das vorgeschlagene MVQA mit USDS eine vergleichbare Leistung zu den neuesten Methoden erzielt, dabei doppelt so schnell ist und nur ein Fünftel des GPU-Speichers benötigt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yachun Mi

Li Yu

Weilin Meng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MVQA: Mamba mit Unified Sampling für effiziente Videoqualitätsbewertung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider