Key points are not available for this paper at this time.
Les avancées récentes dans les modèles de langage de grande taille multimodaux (LLMs) ont principalement porté sur l'augmentation de la quantité de données paires texte-image et l'amélioration des LLMs pour améliorer les performances sur les tâches multimodales. Cependant, ces approches d'extension sont coûteuses en calcul et négligent l'importance d'améliorer les capacités du modèle du côté vision. Inspiré par les applications réussies du mélange d'experts (MoE) dans les LLMs, qui améliore la scalabilité du modèle pendant l'entraînement tout en maintenant des coûts d'inférence similaires à ceux de modèles plus petits, nous proposons CuMo. CuMo intègre des blocs de mélange d'experts Top-K co-recyclés à portes rares à la fois dans l'encodeur visuel et dans le connecteur MLP, renforçant ainsi les LLMs multimodaux avec un minimum de paramètres activés supplémentaires durant l'inférence. CuMo pré-entraine d'abord les blocs MLP puis initialise chaque expert dans le bloc MoE à partir du bloc MLP pré-entraîné lors de la phase d'adaptation à l'instruction visuelle. Des pertes auxiliaires sont utilisées pour assurer une charge équilibrée des experts. CuMo surpasse les LLMs multimodaux de pointe sur divers benchmarks de VQA et d'instruction visuelle en utilisant des modèles dans chaque groupe de taille, tout en s'entraînant exclusivement sur des ensembles de données open source. Le code et les poids du modèle CuMo sont disponibles en open source sur https://github.com/SHI-Labs/CuMo.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiachen Li
Xinyao Wang
Sijie Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Thu,) ont étudié cette question.
www.synapsesocial.com/papers/68e6ada1b6db64358762fc59 — DOI: https://doi.org/10.48550/arxiv.2405.05949
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: