Los puntos clave no están disponibles para este artículo en este momento.
Los avances recientes en el modelo visión-lenguaje han mostrado una notable generalización en tareas visión-lenguaje después del ajuste con instrucciones visuales. Sin embargo, cerrar la brecha entre el codificador visual preentrenado y los grandes modelos de lenguaje se convierte en el cuello de botella de toda la red. Para mejorar la alineación entre modalidades, los trabajos existentes suelen considerar más datos de instrucciones visuales que cubren una gama más amplia de tareas visuales para ajustar el modelo en preguntas y respuestas, lo cual es costoso de obtener. Sin embargo, la imagen contiene información contextual rica que ha sido ampliamente subexplotada. Este artículo intenta por primera vez aprovechar este contexto ignorado dentro de los datos de instrucciones visuales, entrenando al modelo para que aprenda de forma auto-supervisada cómo formular preguntas de alta calidad. De esta manera, introducimos un nuevo marco llamado SQ-LLaVA: Auto-cuestionamiento para Asistente Grande de Visión y Lenguaje. SQ-LLaVA demuestra competencia en generar preguntas flexibles y significativas relacionadas con la imagen mientras analiza la pista visual y el conocimiento lingüístico previo, señalando un nivel avanzado de comprensión visual generalizada. Además, ajustar SQ-LLaVA con datos de instrucción de mayor calidad muestra una mejora consistente en el desempeño en comparación con los métodos tradicionales de ajuste con instrucciones visuales. Esta mejora resalta la eficacia de las técnicas de auto-cuestionamiento para lograr una comprensión más profunda y matizada del contenido visual en diversos contextos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guohao Sun
Can Qin
Jiamian Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e73a8db6db6435876b4914 — DOI: https://doi.org/10.48550/arxiv.2403.11299
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: