April 12, 2024Open Access

Mejorando la respuesta a preguntas visuales mediante leyendas de imágenes impulsadas por la pregunta como indicaciones

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La respuesta a preguntas visuales (VQA) es conocida como una tarea completa de IA, ya que requiere comprensión, razonamiento e inferencia sobre el contenido visual y lingüístico. En los últimos años, se han propuesto numerosas arquitecturas neuronales para el problema de VQA. Sin embargo, lograr éxito en VQA sin entrenamiento previo (zero-shot) sigue siendo un desafío debido a la necesidad de habilidades avanzadas de generalización y razonamiento. Este estudio explora el impacto de incorporar el subtitulado de imágenes como un proceso intermedio dentro del pipeline de VQA. Específicamente, exploramos la eficacia de utilizar leyendas de imágenes en lugar de las imágenes y aprovechar grandes modelos de lenguaje (LLMs) para establecer un entorno zero-shot. Dado que el subtitulado de imágenes es el paso más crucial en este proceso, comparamos el impacto de modelos de subtitulado de última generación en el rendimiento de VQA a través de varios tipos de preguntas en términos de estructura y semántica. Proponemos un enfoque sencillo y eficiente de subtitulado de imágenes impulsado por la pregunta dentro de este pipeline para transferir información contextual al modelo de respuesta a preguntas (QA). Este método implica extraer palabras clave de la pregunta, generar una leyenda para cada par imagen-pregunta usando las palabras clave e incorporar la leyenda impulsada por la pregunta en la indicación del LLM. Evaluamos la eficacia del uso de leyendas de imágenes de propósito general y orientadas por la pregunta en el pipeline de VQA. Nuestro estudio destaca el potencial de emplear leyendas de imágenes y aprovechar las capacidades de los LLMs para lograr un rendimiento competitivo en GQA bajo la configuración zero-shot. Nuestro código está disponible en https: //github. com/ovguyo/captions-in-VQA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Övgü Özdemir

Erdem Akagündüz

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mejorando la respuesta a preguntas visuales mediante leyendas de imágenes impulsadas por la pregunta como indicaciones

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider