February 18, 2024Open Access

Aprendizaje multimodal eficiente desde una perspectiva centrada en los datos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Modelos Multimodales de Lenguaje a Gran Escala (MLLMs) han demostrado capacidades notables en tareas generales de comprensión visual y razonamiento. Sin embargo, su implementación está limitada por los altos costos computacionales tanto en el entrenamiento como en la inferencia, restringiendo el acceso a las comunidades de investigación y usuarios en general. Una solución sencilla es aprovechar modelos preentrenados de visión y lenguaje más pequeños, lo que inevitablemente causa una caída significativa en el rendimiento. En este artículo, demostramos la posibilidad de superar la ley de escalamiento y entrenar un MLLM más pequeño pero mejor mediante la exploración de datos de entrenamiento más informativos. Específicamente, presentamos Bunny, una familia de MLLMs ligeros con columnas vertebrales flexibles de visión y lenguaje para un aprendizaje multimodal eficiente a partir de datos de entrenamiento condensados. De manera notable, nuestro Bunny-3B supera a los MLLMs grandes de última generación, especialmente a LLaVA-v1.5-13B, en múltiples benchmarks. El código, los modelos y los datos se pueden encontrar en https://github.com/BAAI-DCAI/Bunny.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Muyang He

Yexin Liu

Boya Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizaje multimodal eficiente desde una perspectiva centrada en los datos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider