Los puntos clave no están disponibles para este artículo en este momento.
Los Modelos de Lenguaje Grande Multimodal (MLLMs) han demostrado habilidades impresionantes en tareas relacionadas con la comprensión visual y el razonamiento. Sin embargo, su aplicación generalizada enfrenta obstáculos debido a las altas demandas computacionales tanto en las fases de entrenamiento como de inferencia, lo que limita su uso a una audiencia reducida dentro de las comunidades de investigación y usuarios. En este artículo, investigamos los aspectos de diseño de los Modelos Pequeños de Lenguaje Multimodal (MSLMs) y proponemos un asistente multimodal eficiente llamado Mipha, que está diseñado para crear sinergia entre varios aspectos: representación visual, modelos de lenguaje y estrategias de optimización. Mostramos que sin aumentar el volumen de datos de entrenamiento, nuestro Mipha-3B supera a los MLLMs grandes de última generación, especialmente LLaVA-1.5-13B, en múltiples puntos de referencia. A través de una discusión detallada, proporcionamos ideas y directrices para desarrollar MSLMs robustos que rivalicen con las capacidades de los MLLMs. Nuestro código está disponible en https://github.com/zhuyiche/Mipha.
Building similarity graph...
Analyzing shared references across papers
Loading...
Minjie Zhu
Yichen Zhu
Xin Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e74cc9b6db6435876c5000 — DOI: https://doi.org/10.48550/arxiv.2403.06199
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: