Key points are not available for this paper at this time.
Jüngste Fortschritte bei multimodalen LLMs haben zur Entwicklung mehrerer Video-Text-Modelle für wichtige video-bezogene Aufgaben geführt. Allerdings unterstützen die meisten bisherigen Arbeiten nur visuelle Eingaben und ignorieren somit das Audiosignal im Video. Wenige Modelle, die sowohl Audio- als auch visuelle Eingaben unterstützen, sind nicht explizit auf Audiodaten trainiert. Daher ist die Wirkung von Audio auf das Videoverständnis weitgehend unerforscht. Zu diesem Zweck schlagen wir eine Modellarchitektur vor, die audiovisuelle Eingaben explizit verarbeitet. Wir trainieren unser Modell mit sowohl Audio- als auch visuellen Daten aus einem Video-Instruction-Tuning-Datensatz. Der Vergleich mit rein visuell basierten Baselines und anderen audio-visuellen Modellen zeigt, dass das Training mit Audiodaten tatsächlich zu einer verbesserten Verankerung der Antworten führt. Für eine bessere Bewertung audio-visueller Modelle veröffentlichen wir außerdem einen menschlich annotierten Benchmark-Datensatz mit audio-bewussten Frage-Antwort-Paaren.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shivprasad Rajendra Sagare
S Hemachandran
Kinshuk Sarabhai
Building similarity graph...
Analyzing shared references across papers
Loading...
Sagare et al. (Sat,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e5fa6bb6db64358758ee9a — DOI: https://doi.org/10.48550/arxiv.2407.15046
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: