Key points are not available for this paper at this time.
Modelos de Linguagem Grandes Multimodais (MLLMs) demonstraram capacidades notáveis em tarefas gerais de compreensão visual e raciocínio. No entanto, sua implementação é dificultada pelos altos custos computacionais tanto no treinamento quanto na inferência, limitando o acesso para as comunidades mais amplas de pesquisa e usuários. Uma solução direta é aproveitar modelos pretreinados menores de visão e linguagem, o que inevitavelmente causa queda significativa de desempenho. Neste artigo, demonstramos a possibilidade de superar a lei de escalonamento e treinar um MLLM menor, porém superior, explorando dados de treinamento mais informativos. Especificamente, apresentamos Bunny, uma família de MLLMs leves com espinhas dorsais flexíveis de visão e linguagem para aprendizado multimodal eficiente a partir de dados de treinamento condensados. Notavelmente, nosso Bunny-3B supera os MLLMs grandes de estado da arte, especialmente LLaVA-v1.5-13B, em múltiplos benchmarks. O código, modelos e dados podem ser encontrados em https://github.com/BAAI-DCAI/Bunny.
Building similarity graph...
Analyzing shared references across papers
Loading...
Muyang He
Yexin Liu
Boya Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/68e78b83b6db6435876fd3d7 — DOI: https://doi.org/10.48550/arxiv.2402.11530
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: