June 21, 2024Open Access

video-SALMONN : Modèles de langage large audio-visuels améliorés par la parole

Key Points

Key points are not available for this paper at this time.

Abstract

La compréhension de la parole en tant qu'élément de la compréhension vidéo plus générale utilisant des modèles de langage large audio-visuels (av-LLMs) est un aspect crucial mais peu étudié. Cet article propose video-SALMONN, un av-LLM unique de bout en bout pour le traitement vidéo, capable de comprendre non seulement les séquences d'images visuelles, les événements audio et la musique, mais aussi la parole. Pour obtenir des informations temporelles fines nécessaires à la compréhension de la parole, tout en restant efficace pour les autres éléments vidéo, cet article propose une nouvelle structure de Q-Former causale à multi-résolution (MRC Q-Former) pour connecter les encodeurs audio-visuels préentraînés et le modèle de langage large principal. De plus, des approches d'entraînement dédiées, incluant la perte de diversité et le schéma d'entraînement mixte audio-visuel non apparié, sont proposées pour éviter la dominance d'images ou de modalités. Sur le benchmark d'évaluation introduit pour la parole audio-visuelle vidéo, video-SALMONN obtient plus de 25 % d'amélioration absolue de précision sur la tâche de video-QA et plus de 30 % d'amélioration absolue sur les tâches de QA audio-visuelles avec parole humaine. En outre, video-SALMONN démontre des capacités remarquables de compréhension et de raisonnement vidéo sur des tâches inédites par d'autres av-LLMs. Notre code d'entraînement et les points de contrôle du modèle sont disponibles sur https://github.com/bytedance/SALMONN/.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guangzhi Sun

Wenyi Yu

Changli Tang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

video-SALMONN : Modèles de langage large audio-visuels améliorés par la parole

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider