May 9, 2024Open Access

CuMo : Échelle des LLM multimodaux avec mélange d'experts co-recyclé

Key Points

Key points are not available for this paper at this time.

Abstract

Les avancées récentes dans les modèles de langage de grande taille multimodaux (LLMs) ont principalement porté sur l'augmentation de la quantité de données paires texte-image et l'amélioration des LLMs pour améliorer les performances sur les tâches multimodales. Cependant, ces approches d'extension sont coûteuses en calcul et négligent l'importance d'améliorer les capacités du modèle du côté vision. Inspiré par les applications réussies du mélange d'experts (MoE) dans les LLMs, qui améliore la scalabilité du modèle pendant l'entraînement tout en maintenant des coûts d'inférence similaires à ceux de modèles plus petits, nous proposons CuMo. CuMo intègre des blocs de mélange d'experts Top-K co-recyclés à portes rares à la fois dans l'encodeur visuel et dans le connecteur MLP, renforçant ainsi les LLMs multimodaux avec un minimum de paramètres activés supplémentaires durant l'inférence. CuMo pré-entraine d'abord les blocs MLP puis initialise chaque expert dans le bloc MoE à partir du bloc MLP pré-entraîné lors de la phase d'adaptation à l'instruction visuelle. Des pertes auxiliaires sont utilisées pour assurer une charge équilibrée des experts. CuMo surpasse les LLMs multimodaux de pointe sur divers benchmarks de VQA et d'instruction visuelle en utilisant des modèles dans chaque groupe de taille, tout en s'entraînant exclusivement sur des ensembles de données open source. Le code et les poids du modèle CuMo sont disponibles en open source sur https://github.com/SHI-Labs/CuMo.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiachen Li

Xinyao Wang

Sijie Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CuMo : Échelle des LLM multimodaux avec mélange d'experts co-recyclé

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider