Key points are not available for this paper at this time.
مؤخرًا، حققت نماذج ضبط التعليمات للرؤية-اللغة تقدمًا كبيرًا بفضل فهمها الأكثر شمولية للعالم. في هذا العمل، اكتشفنا أن التدريب المتوازي واسع النطاق ثلاثي الأبعاد على تلك النماذج يؤدي إلى تحميل حسابي غير متوازن عبر الأجهزة المختلفة. أجزاء الرؤية واللغة هي متغايرة بطبيعتها: توزيع بياناتها وهيكل النموذج يختلفان بشكل كبير، ما يؤثر على كفاءة التدريب الموزع. أعادنا توازن الأحمال الحسابية من منظور البيانات والنموذج والذاكرة لمعالجة هذه المشكلة، محققين توازنًا أفضل في الحساب عبر الأجهزة. هذه المكونات الثلاثة ليست مستقلة بل مرتبطة ارتباطًا وثيقًا، مكونة إطار تدريب متوازن شامل. على وجه التحديد، بالنسبة للبيانات، قمنا بتجميع العينات في دفعات صغيرة متوازنة جديدة داخل الأجهزة وعبرها. بالنسبة للنموذج، استخدمنا طريقة بحث لتحقيق تقسيم أكثر توازنًا. بالنسبة لتحسين الذاكرة، قمنا بضبط استراتيجية إعادة الحساب لكل تقسيم بشكل تكيفي لاستغلال الذاكرة المتاحة بالكامل. أجرينا تجارب موسعة للتحقق من فعالية طريقتنا. مقارنةً بكود التدريب مفتوح المصدر لـ InternVL-Chat، خفّضنا بشكل كبير أيام استخدام GPU، محققين تسريعًا بحوالي 1.8 مرة. كما أُظهرت فعالية وعمومية طريقتنا عبر نماذج ومجموعات بيانات مختلفة. سيتم إصدار الأكواد عبر https://github.com/ModelTC/OmniBal.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongqiang Yao
Jingru Tan
Jiahao Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس ياو وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e5e8f6b6db64358757dbed — DOI: https://doi.org/10.48550/arxiv.2407.20761