July 20, 2024Open Access

Audiovisuelle Schulung zur verbesserten Verankerung in Video-Text-LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

Jüngste Fortschritte bei multimodalen LLMs haben zur Entwicklung mehrerer Video-Text-Modelle für wichtige video-bezogene Aufgaben geführt. Allerdings unterstützen die meisten bisherigen Arbeiten nur visuelle Eingaben und ignorieren somit das Audiosignal im Video. Wenige Modelle, die sowohl Audio- als auch visuelle Eingaben unterstützen, sind nicht explizit auf Audiodaten trainiert. Daher ist die Wirkung von Audio auf das Videoverständnis weitgehend unerforscht. Zu diesem Zweck schlagen wir eine Modellarchitektur vor, die audiovisuelle Eingaben explizit verarbeitet. Wir trainieren unser Modell mit sowohl Audio- als auch visuellen Daten aus einem Video-Instruction-Tuning-Datensatz. Der Vergleich mit rein visuell basierten Baselines und anderen audio-visuellen Modellen zeigt, dass das Training mit Audiodaten tatsächlich zu einer verbesserten Verankerung der Antworten führt. Für eine bessere Bewertung audio-visueller Modelle veröffentlichen wir außerdem einen menschlich annotierten Benchmark-Datensatz mit audio-bewussten Frage-Antwort-Paaren.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shivprasad Rajendra Sagare

S Hemachandran

Kinshuk Sarabhai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Audiovisuelle Schulung zur verbesserten Verankerung in Video-Text-LLMs

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider