April 10, 2024Open Access

JetMoE: الوصول إلى أداء Llama2 بتكلفة 0.1 مليون دولار

Key Points

Key points are not available for this paper at this time.

Abstract

حققت نماذج اللغة الكبيرة (LLMs) نتائج رائعة، لكن الطلب المتزايد على الموارد أصبح عقبة رئيسية أمام تطوير ذكاء فائق القوة ومتاح. يقدم هذا التقرير JetMoE-8B، نموذج LLM جديد تم تدريبه بتكلفة أقل من 0.1 مليون، باستخدام 1.25 تريليون رمز من مجموعات بيانات مفتوحة المصدر مختلطة بعناية و30,000 ساعة GPU من طراز H100. على الرغم من تكلفته المنخفضة، يظهر JetMoE-8B أداءً مميزًا حيث يتفوق على نموذج Llama2-7B ويتجاوز JetMoE-8B-Chat نموذج Llama2-13B-Chat. تشير هذه النتائج إلى أن تدريب LLM يمكن أن يكون أكثر فعالية من حيث التكلفة مما هو معتاد. يعتمد JetMoE-8B على بنية فعالة من نوع Mixture-of-Experts ذات التنشيط الجزئي (SMoE)، تتكون من خبراء في الانتباه والتغذية الأمامية. يتم تنشيط كلا الطبقتين بشكل جزئي، مما يسمح لـ JetMoE-8B بامتلاك 8 مليارات معامل مع تنشيط 2 مليار فقط لكل رمز دخل، مما يقلل من حسابات الاستدلال بنسبة حوالي 70% مقارنة بـ Llama2-7B. علاوة على ذلك، JetMoE-8B مفتوح للغاية وملائم للأكاديميا، حيث يستخدم فقط مجموعات بيانات عامة وكود تدريب مفتوح. تم تفصيل جميع معلمات التدريب ومزيج البيانات في هذا التقرير لتسهيل الجهود المستقبلية في تطوير نماذج أساسية مفتوحة. تهدف هذه الشفافية إلى تشجيع التعاون وتقدم المزيد في مجال LLMs المتاحة والفعالة. أوزان النموذج متاحة علنًا على https://github.com/myshell-ai/JetMoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yikang Shen

Zhen Guo

Tianle Cai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

JetMoE: الوصول إلى أداء Llama2 بتكلفة 0.1 مليون دولار

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider