February 18, 2024Open Access

Aprendizado Multimodal Eficiente sob a Perspectiva Centrada em Dados

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de Linguagem Grandes Multimodais (MLLMs) demonstraram capacidades notáveis em tarefas gerais de compreensão visual e raciocínio. No entanto, sua implementação é dificultada pelos altos custos computacionais tanto no treinamento quanto na inferência, limitando o acesso para as comunidades mais amplas de pesquisa e usuários. Uma solução direta é aproveitar modelos pretreinados menores de visão e linguagem, o que inevitavelmente causa queda significativa de desempenho. Neste artigo, demonstramos a possibilidade de superar a lei de escalonamento e treinar um MLLM menor, porém superior, explorando dados de treinamento mais informativos. Especificamente, apresentamos Bunny, uma família de MLLMs leves com espinhas dorsais flexíveis de visão e linguagem para aprendizado multimodal eficiente a partir de dados de treinamento condensados. Notavelmente, nosso Bunny-3B supera os MLLMs grandes de estado da arte, especialmente LLaVA-v1.5-13B, em múltiplos benchmarks. O código, modelos e dados podem ser encontrados em https://github.com/BAAI-DCAI/Bunny.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Muyang He

Yexin Liu

Boya Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizado Multimodal Eficiente sob a Perspectiva Centrada em Dados

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider