Key points are not available for this paper at this time.
حققت نماذج اللغة الكبيرة (LLMs) نتائج رائعة، لكن الطلب المتزايد على الموارد أصبح عقبة رئيسية أمام تطوير ذكاء فائق القوة ومتاح. يقدم هذا التقرير JetMoE-8B، نموذج LLM جديد تم تدريبه بتكلفة أقل من 0.1 مليون، باستخدام 1.25 تريليون رمز من مجموعات بيانات مفتوحة المصدر مختلطة بعناية و30,000 ساعة GPU من طراز H100. على الرغم من تكلفته المنخفضة، يظهر JetMoE-8B أداءً مميزًا حيث يتفوق على نموذج Llama2-7B ويتجاوز JetMoE-8B-Chat نموذج Llama2-13B-Chat. تشير هذه النتائج إلى أن تدريب LLM يمكن أن يكون أكثر فعالية من حيث التكلفة مما هو معتاد. يعتمد JetMoE-8B على بنية فعالة من نوع Mixture-of-Experts ذات التنشيط الجزئي (SMoE)، تتكون من خبراء في الانتباه والتغذية الأمامية. يتم تنشيط كلا الطبقتين بشكل جزئي، مما يسمح لـ JetMoE-8B بامتلاك 8 مليارات معامل مع تنشيط 2 مليار فقط لكل رمز دخل، مما يقلل من حسابات الاستدلال بنسبة حوالي 70% مقارنة بـ Llama2-7B. علاوة على ذلك، JetMoE-8B مفتوح للغاية وملائم للأكاديميا، حيث يستخدم فقط مجموعات بيانات عامة وكود تدريب مفتوح. تم تفصيل جميع معلمات التدريب ومزيج البيانات في هذا التقرير لتسهيل الجهود المستقبلية في تطوير نماذج أساسية مفتوحة. تهدف هذه الشفافية إلى تشجيع التعاون وتقدم المزيد في مجال LLMs المتاحة والفعالة. أوزان النموذج متاحة علنًا على https://github.com/myshell-ai/JetMoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yikang Shen
Zhen Guo
Tianle Cai
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Shen وآخرون (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e6fa8ab6db643587674b56 — DOI: https://doi.org/10.48550/arxiv.2404.07413
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: