Key points are not available for this paper at this time.
ملخص في السنوات القليلة الماضية، أصبحت نماذج اللغات الكبيرة القائمة على المحولات (LLM) التكنولوجيا المسيطرة في سلسلة من التطبيقات. لتوسيع طول التسلسل في المحول، تم اقتراح FlashAttention لحساب الانتباه الدقيق مع تقليل متطلبات الذاكرة وتسريع التنفيذ. ومع ذلك، يواجه تنفيذ خوارزمية FlashAttention على جيل الحاسوب العملاق Sunway الجديد العديد من القيود مثل البنية غير المتجانسة الفريدة وعرض النطاق الترددي المحدود للذاكرة. يقترح هذا العمل SWattention، وهو طريقة ذات كفاءة عالية لحساب الانتباه الدقيق على معالج SW26010pro. لاستغلال كامل لمجموعات الأنوية الست (CG) و64 نواة لكل مجموعة على المعالج، صممنا استراتيجية تقسيم مهام متوازية على مستويين. يُستخدم الوصول غير المتزامن للذاكرة لضمان تداخل الوصول للذاكرة مع العمليات الحسابية. بالإضافة إلى ذلك، تم تقديم استراتيجية التجزئة لتحديد أحجام مثلى لكتل SRAM. مقارنة بالانتباه القياسي، يحقق SWattention تسريعًا بحوالي 2.0 مرة لتدريب FP32 وتسريعًا بمقدار 2.5 مرة لتدريب الدقة المختلطة. تتراوح أطوال التسلسلات من 1k إلى 8k وتصل إلى 16k دون نفاد الذاكرة. أما بالنسبة للأداء الشامل، فيحقق SWattention تسريعًا يصل إلى 1.26 مرة لتدريب نماذج على نمط GPT، مما يثبت أن SWattention يتيح طول تسلسل أطول لتدريب LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ruohan Wu
Xianyu Zhu
Junshi Chen
The Journal of Supercomputing
University of Science and Technology of China
Zhejiang Lab
National Supercomputing Center in Wuxi
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Wu وآخرون (الاثنين) هذا السؤال.
www.synapsesocial.com/papers/68e74959b6db6435876c2571 — DOI: https://doi.org/10.1007/s11227-024-05890-8
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: