Los puntos clave no están disponibles para este artículo en este momento.
La respuesta a preguntas visuales (VQA) es conocida como una tarea completa de IA, ya que requiere comprensión, razonamiento e inferencia sobre el contenido visual y lingüístico. En los últimos años, se han propuesto numerosas arquitecturas neuronales para el problema de VQA. Sin embargo, lograr éxito en VQA sin entrenamiento previo (zero-shot) sigue siendo un desafío debido a la necesidad de habilidades avanzadas de generalización y razonamiento. Este estudio explora el impacto de incorporar el subtitulado de imágenes como un proceso intermedio dentro del pipeline de VQA. Específicamente, exploramos la eficacia de utilizar leyendas de imágenes en lugar de las imágenes y aprovechar grandes modelos de lenguaje (LLMs) para establecer un entorno zero-shot. Dado que el subtitulado de imágenes es el paso más crucial en este proceso, comparamos el impacto de modelos de subtitulado de última generación en el rendimiento de VQA a través de varios tipos de preguntas en términos de estructura y semántica. Proponemos un enfoque sencillo y eficiente de subtitulado de imágenes impulsado por la pregunta dentro de este pipeline para transferir información contextual al modelo de respuesta a preguntas (QA). Este método implica extraer palabras clave de la pregunta, generar una leyenda para cada par imagen-pregunta usando las palabras clave e incorporar la leyenda impulsada por la pregunta en la indicación del LLM. Evaluamos la eficacia del uso de leyendas de imágenes de propósito general y orientadas por la pregunta en el pipeline de VQA. Nuestro estudio destaca el potencial de emplear leyendas de imágenes y aprovechar las capacidades de los LLMs para lograr un rendimiento competitivo en GQA bajo la configuración zero-shot. Nuestro código está disponible en https: //github. com/ovguyo/captions-in-VQA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Övgü Özdemir
Erdem Akagündüz
Building similarity graph...
Analyzing shared references across papers
Loading...
Özdemir et al. (Fri,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6f71db6db643587671bde — DOI: https://doi.org/10.48550/arxiv.2404.08589
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: