February 18, 2024Open Access

Effizientes multimodales Lernen aus daten-zentrierter Perspektive

Key Points

Key points are not available for this paper at this time.

Abstract

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten im allgemeinen visuellen Verständnis und bei logischen Aufgaben gezeigt. Ihre Einführung wird jedoch durch erhebliche Rechenkosten bei Training und Inferenz behindert, was den Zugang für die breitere Forschungs- und Anwendergemeinschaft einschränkt. Eine einfache Lösung besteht darin, kleinere vortrainierte Vision- und Sprachmodelle zu nutzen, was jedoch zu einem erheblichen Leistungsabfall führt. In diesem Papier zeigen wir die Möglichkeit, das Skalierungsgesetz zu übertreffen und ein kleineres, aber besseres MLLM durch die Erschließung informativerer Trainingsdaten zu trainieren. Konkret führen wir Bunny ein, eine Familie leichter MLLMs mit flexiblen Vision- und Sprach-Backbones für effizientes multimodales Lernen aus komprimierten Trainingsdaten. Bemerkenswert übertrifft unser Bunny-3B die derzeitigen großen MLLMs, besonders LLaVA-v1.5-13B, in mehreren Benchmarks. Code, Modelle und Daten sind erhältlich unter https://github.com/BAAI-DCAI/Bunny.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Muyang He

Yexin Liu

Boya Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Effizientes multimodales Lernen aus daten-zentrierter Perspektive

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider