March 17, 2024Open Access

SQ-LLaVA: Auto-cuestionamiento para Asistente Grande de Visión y Lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los avances recientes en el modelo visión-lenguaje han mostrado una notable generalización en tareas visión-lenguaje después del ajuste con instrucciones visuales. Sin embargo, cerrar la brecha entre el codificador visual preentrenado y los grandes modelos de lenguaje se convierte en el cuello de botella de toda la red. Para mejorar la alineación entre modalidades, los trabajos existentes suelen considerar más datos de instrucciones visuales que cubren una gama más amplia de tareas visuales para ajustar el modelo en preguntas y respuestas, lo cual es costoso de obtener. Sin embargo, la imagen contiene información contextual rica que ha sido ampliamente subexplotada. Este artículo intenta por primera vez aprovechar este contexto ignorado dentro de los datos de instrucciones visuales, entrenando al modelo para que aprenda de forma auto-supervisada cómo formular preguntas de alta calidad. De esta manera, introducimos un nuevo marco llamado SQ-LLaVA: Auto-cuestionamiento para Asistente Grande de Visión y Lenguaje. SQ-LLaVA demuestra competencia en generar preguntas flexibles y significativas relacionadas con la imagen mientras analiza la pista visual y el conocimiento lingüístico previo, señalando un nivel avanzado de comprensión visual generalizada. Además, ajustar SQ-LLaVA con datos de instrucción de mayor calidad muestra una mejora consistente en el desempeño en comparación con los métodos tradicionales de ajuste con instrucciones visuales. Esta mejora resalta la eficacia de las técnicas de auto-cuestionamiento para lograr una comprensión más profunda y matizada del contenido visual en diversos contextos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guohao Sun

Can Qin

Jiamian Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SQ-LLaVA: Auto-cuestionamiento para Asistente Grande de Visión y Lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider