March 10, 2024Open Access

Una revisión exhaustiva del asistente multimodal con modelos pequeños de lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Modelos de Lenguaje Grande Multimodal (MLLMs) han demostrado habilidades impresionantes en tareas relacionadas con la comprensión visual y el razonamiento. Sin embargo, su aplicación generalizada enfrenta obstáculos debido a las altas demandas computacionales tanto en las fases de entrenamiento como de inferencia, lo que limita su uso a una audiencia reducida dentro de las comunidades de investigación y usuarios. En este artículo, investigamos los aspectos de diseño de los Modelos Pequeños de Lenguaje Multimodal (MSLMs) y proponemos un asistente multimodal eficiente llamado Mipha, que está diseñado para crear sinergia entre varios aspectos: representación visual, modelos de lenguaje y estrategias de optimización. Mostramos que sin aumentar el volumen de datos de entrenamiento, nuestro Mipha-3B supera a los MLLMs grandes de última generación, especialmente LLaVA-1.5-13B, en múltiples puntos de referencia. A través de una discusión detallada, proporcionamos ideas y directrices para desarrollar MSLMs robustos que rivalicen con las capacidades de los MLLMs. Nuestro código está disponible en https://github.com/zhuyiche/Mipha.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Minjie Zhu

Yichen Zhu

Xin Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Una revisión exhaustiva del asistente multimodal con modelos pequeños de lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider