Key points are not available for this paper at this time.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten im allgemeinen visuellen Verständnis und bei logischen Aufgaben gezeigt. Ihre Einführung wird jedoch durch erhebliche Rechenkosten bei Training und Inferenz behindert, was den Zugang für die breitere Forschungs- und Anwendergemeinschaft einschränkt. Eine einfache Lösung besteht darin, kleinere vortrainierte Vision- und Sprachmodelle zu nutzen, was jedoch zu einem erheblichen Leistungsabfall führt. In diesem Papier zeigen wir die Möglichkeit, das Skalierungsgesetz zu übertreffen und ein kleineres, aber besseres MLLM durch die Erschließung informativerer Trainingsdaten zu trainieren. Konkret führen wir Bunny ein, eine Familie leichter MLLMs mit flexiblen Vision- und Sprach-Backbones für effizientes multimodales Lernen aus komprimierten Trainingsdaten. Bemerkenswert übertrifft unser Bunny-3B die derzeitigen großen MLLMs, besonders LLaVA-v1.5-13B, in mehreren Benchmarks. Code, Modelle und Daten sind erhältlich unter https://github.com/BAAI-DCAI/Bunny.
Building similarity graph...
Analyzing shared references across papers
Loading...
Muyang He
Yexin Liu
Boya Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Sun,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e78b83b6db6435876fd3d7 — DOI: https://doi.org/10.48550/arxiv.2402.11530
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: