Das schnelle Wachstum von hochauflösenden Videos mit langer Dauer stellt eine kritische Herausforderung für die effiziente Videoqualitätsbewertung (VQA) dar. Bestehende Forschungen gehen dieses Problem typischerweise mit zwei Hauptstrategien an: Reduzierung der Modellparameter und erneute Stichprobenziehung der Eingaben. Leichtgewichtige Convolutional Neural Networks (CNN) und Transformer haben jedoch oft Schwierigkeiten, Effizienz mit hoher Leistung zu verbinden, da eine Langstreckenmodellierung erforderlich ist. Kürzlich hat sich das Zustandsraummodell, insbesondere Mamba, als vielversprechende Alternative herauskristallisiert, da es eine lineare Komplexität bezüglich der Sequenzlänge bietet. Gleichzeitig hängt effiziente VQA stark von der Resampling langer Sequenzen zur Minimierung der Rechenkosten ab, wobei aktuelle Resampling-Methoden oft wesentliche semantische Informationen nur schwach bewahren. In dieser Arbeit präsentieren wir MVQA, ein Mamba-basiertes Modell für effiziente VQA zusammen mit einem neuartigen Unified Semantic and Distortion Sampling (USDS)-Ansatz. USDS kombiniert semantische Patch-Stichproben aus Videos mit niedriger Auflösung und Verzerrungs-Patch-Stichproben aus Videos mit Originalauflösung. Erstere erfassen semantisch dichte Regionen, während letztere kritische Verzerrungsdetails erhalten. Um eine erhöhte Rechenlast durch doppelte Eingaben zu vermeiden, schlagen wir einen Fusionsmechanismus mit vordefinierten Masken vor, der eine einheitliche Sampling-Strategie ermöglicht, die sowohl semantische als auch Qualitätsinformationen ohne zusätzliche Rechenbelastung erfasst. Experimente zeigen, dass das vorgeschlagene MVQA mit USDS eine vergleichbare Leistung zu den neuesten Methoden erzielt, dabei doppelt so schnell ist und nur ein Fünftel des GPU-Speichers benötigt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yachun Mi
Li Yu
Weilin Meng
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68dd91cbfe798ba2fc498785 — DOI: https://doi.org/10.48550/arxiv.2504.16003
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: