Los puntos clave no están disponibles para este artículo en este momento.
Responder preguntas sobre videos (VideoQA) es una tarea compleja que requiere una comprensión profunda de un video para responder con precisión las preguntas. Los métodos existentes a menudo tienen dificultades para integrar eficazmente la información semántica visual y basada en el lenguaje, lo que conduce a una comprensión incompleta del contenido del video y un rendimiento subóptimo. Para abordar este desafío, presentamos un enfoque novedoso en este artículo para enriquecer la semántica de los cuadros de video, preguntas y candidatos a respuestas. Específicamente, analizamos los cuadros de video y las preguntas en grafos semánticos: grafo semántico visual y grafo semántico de la pregunta, que capturan información sobre objetos, sus atributos y relaciones. Estos grafos se codifican mediante una Red Neuronal de Grafo Regulada (GGNN). Para los candidatos a respuestas, proponemos verbalizarlos usando Modelos de Lenguaje a Gran Escala (LLMs) para inyectar más información semántica desde aspectos visuales y acústicos. Evaluamos nuestro enfoque en conjuntos de datos de referencia de VideoQA: AVQA y Music-AVQA. Los resultados experimentales muestran que nuestro enfoque supera a modelos base competitivos, logrando un rendimiento de vanguardia en varios tipos de preguntas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenyang Lyu
Wenxi Li
Tianbo Ji
Shanghai Jiao Tong University
Dublin City University
Tencent (China)
Building similarity graph...
Analyzing shared references across papers
Loading...
Lyu et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e7398bb6db6435876b2f8a — DOI: https://doi.org/10.1109/icassp48485.2024.10447275
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: