Key points are not available for this paper at this time.
تُبرز التطورات الحديثة في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) أهمية النماذج والبيانات القابلة للتوسع لتعزيز الأداء، ومع ذلك غالبًا ما يتطلب ذلك تكاليف حسابية كبيرة. على الرغم من استخدام بنية خليط الخبراء (MoE) لتوسيع نماذج اللغة الكبيرة ونماذج النص والصورة بكفاءة، إلا أن هذه الجهود عادةً ما تشمل عددًا أقل من الخبراء ووسائط محدودة. لمعالجة ذلك، يقدم عملنا المحاولة الرائدة لتطوير نموذج MLLM موحد ببنية MoE، يُسمى Uni-MoE، يمكنه التعامل مع مجموعة واسعة من الوسائط. يتميز بشكل خاص بوجود مشفرات خاصة بكل وسيلة مع موصلات لتمثيل متعدد الوسائط موحد. كما نطبق بنية MoE متناثرة داخل نماذج LLMs لتمكين تدريب واستدلال فعالين من خلال التوازي البياناتي على مستوى الوسائط والتوازي النموذجي على مستوى الخبراء. لتعزيز التعاون بين الخبراء المتعددين والتعميم، نقدم استراتيجية تدريب تدريجية: 1) محاذاة عبر الوسائط باستخدام موصلات مختلفة مع بيانات عبر الوسائط متنوعة، 2) تدريب خبراء خاصين بكل وسيلة باستخدام بيانات تعليمات عبر الوسائط لتنشيط تفضيلات الخبراء، و3) ضبط إطار عمل Uni-MoE باستخدام التكيف منخفض الرتبة (LoRA) على بيانات تعليمات متعددة الوسائط مختلطة. نقوم بتقييم Uni-MoE بعد ضبط التعليمات على مجموعة شاملة من مجموعات البيانات متعددة الوسائط. تظهر النتائج التجريبية الموسعة الميزة الرئيسية لـ Uni-MoE في تقليل تحيز الأداء بشكل كبير عند التعامل مع مجموعات بيانات متعددة الوسائط المختلطة، إلى جانب تحسين التعاون بين الخبراء المتعددين والتعميم. تبرز نتائجنا الإمكانات الكبيرة لأُطُر MoE في تطوير MLLMs، والكود متاح على https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yunxin Li
Shenyuan Jiang
Baotian Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لي وآخرون (Sat,) هذا السؤال.
www.synapsesocial.com/papers/68e69710b6db64358761dc2b — DOI: https://doi.org/10.48550/arxiv.2405.11273
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: