Los puntos clave no están disponibles para este artículo en este momento.
Los modelos multimodales de lenguaje grande (MLLMs) han logrado avances significativos en diversas tareas de comprensión visual. Sin embargo, la mayoría de estos modelos están limitados a procesar imágenes de baja resolución, lo que restringe su efectividad en tareas de percepción que requieren información visual detallada. En nuestro estudio, presentamos MG-LLaVA, un MLLM innovador que mejora las capacidades de procesamiento visual del modelo incorporando un flujo visual de multi-granularidad, que incluye características de baja resolución, alta resolución y centradas en objetos. Proponemos la integración de un codificador visual de alta resolución adicional para capturar detalles finos, los cuales luego se fusionan con las características visuales base mediante una red de fusión Conv-Gate. Para refinar aún más las habilidades de reconocimiento de objetos del modelo, incorporamos características a nivel de objeto derivadas de cuadros delimitadores identificados por detectores offline. Entrenado únicamente con datos multimodales disponibles públicamente a través de sintonización por instrucciones, MG-LLaVA demuestra habilidades excepcionales de percepción. Instanciamos MG-LLaVA con una amplia variedad de codificadores de lenguaje, desde 3.8B hasta 34B, para evaluar integralmente el rendimiento del modelo. Evaluaciones extensas en múltiples benchmarks demuestran que MG-LLaVA supera a los MLLMs existentes con tamaños de parámetro comparables, mostrando su notable eficacia. El código estará disponible en https://github.com/PhoenixZ810/MG-LLaVA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiangyu Zhao
Xiangtai Li
Haodong Duan
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (mar.) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e635deb6db6435875c7c8f — DOI: https://doi.org/10.48550/arxiv.2406.17770
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: