Los puntos clave no están disponibles para este artículo en este momento.
Los Modelos Multimodales de Lenguaje a Gran Escala (MLLMs) han demostrado capacidades notables en tareas generales de comprensión visual y razonamiento. Sin embargo, su implementación está limitada por los altos costos computacionales tanto en el entrenamiento como en la inferencia, restringiendo el acceso a las comunidades de investigación y usuarios en general. Una solución sencilla es aprovechar modelos preentrenados de visión y lenguaje más pequeños, lo que inevitablemente causa una caída significativa en el rendimiento. En este artículo, demostramos la posibilidad de superar la ley de escalamiento y entrenar un MLLM más pequeño pero mejor mediante la exploración de datos de entrenamiento más informativos. Específicamente, presentamos Bunny, una familia de MLLMs ligeros con columnas vertebrales flexibles de visión y lenguaje para un aprendizaje multimodal eficiente a partir de datos de entrenamiento condensados. De manera notable, nuestro Bunny-3B supera a los MLLMs grandes de última generación, especialmente a LLaVA-v1.5-13B, en múltiples benchmarks. El código, los modelos y los datos se pueden encontrar en https://github.com/BAAI-DCAI/Bunny.
Building similarity graph...
Analyzing shared references across papers
Loading...
Muyang He
Yexin Liu
Boya Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e78b83b6db6435876fd3d7 — DOI: https://doi.org/10.48550/arxiv.2402.11530
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: