June 25, 2024Open Access

MG-LLaVA: Hacia la sintonización de instrucciones visuales de multi-granularidad

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos multimodales de lenguaje grande (MLLMs) han logrado avances significativos en diversas tareas de comprensión visual. Sin embargo, la mayoría de estos modelos están limitados a procesar imágenes de baja resolución, lo que restringe su efectividad en tareas de percepción que requieren información visual detallada. En nuestro estudio, presentamos MG-LLaVA, un MLLM innovador que mejora las capacidades de procesamiento visual del modelo incorporando un flujo visual de multi-granularidad, que incluye características de baja resolución, alta resolución y centradas en objetos. Proponemos la integración de un codificador visual de alta resolución adicional para capturar detalles finos, los cuales luego se fusionan con las características visuales base mediante una red de fusión Conv-Gate. Para refinar aún más las habilidades de reconocimiento de objetos del modelo, incorporamos características a nivel de objeto derivadas de cuadros delimitadores identificados por detectores offline. Entrenado únicamente con datos multimodales disponibles públicamente a través de sintonización por instrucciones, MG-LLaVA demuestra habilidades excepcionales de percepción. Instanciamos MG-LLaVA con una amplia variedad de codificadores de lenguaje, desde 3.8B hasta 34B, para evaluar integralmente el rendimiento del modelo. Evaluaciones extensas en múltiples benchmarks demuestran que MG-LLaVA supera a los MLLMs existentes con tamaños de parámetro comparables, mostrando su notable eficacia. El código estará disponible en https://github.com/PhoenixZ810/MG-LLaVA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiangyu Zhao

Xiangtai Li

Haodong Duan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MG-LLaVA: Hacia la sintonización de instrucciones visuales de multi-granularidad

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider