Key points are not available for this paper at this time.
La compréhension de la parole en tant qu'élément de la compréhension vidéo plus générale utilisant des modèles de langage large audio-visuels (av-LLMs) est un aspect crucial mais peu étudié. Cet article propose video-SALMONN, un av-LLM unique de bout en bout pour le traitement vidéo, capable de comprendre non seulement les séquences d'images visuelles, les événements audio et la musique, mais aussi la parole. Pour obtenir des informations temporelles fines nécessaires à la compréhension de la parole, tout en restant efficace pour les autres éléments vidéo, cet article propose une nouvelle structure de Q-Former causale à multi-résolution (MRC Q-Former) pour connecter les encodeurs audio-visuels préentraînés et le modèle de langage large principal. De plus, des approches d'entraînement dédiées, incluant la perte de diversité et le schéma d'entraînement mixte audio-visuel non apparié, sont proposées pour éviter la dominance d'images ou de modalités. Sur le benchmark d'évaluation introduit pour la parole audio-visuelle vidéo, video-SALMONN obtient plus de 25 % d'amélioration absolue de précision sur la tâche de video-QA et plus de 30 % d'amélioration absolue sur les tâches de QA audio-visuelles avec parole humaine. En outre, video-SALMONN démontre des capacités remarquables de compréhension et de raisonnement vidéo sur des tâches inédites par d'autres av-LLMs. Notre code d'entraînement et les points de contrôle du modèle sont disponibles sur https://github.com/bytedance/SALMONN/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guangzhi Sun
Wenyi Yu
Changli Tang
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun et al. (Ven,) ont étudié cette question.
www.synapsesocial.com/papers/68e63e20b6db6435875cfb8b — DOI: https://doi.org/10.48550/arxiv.2406.15704
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: