Key points are not available for this paper at this time.
قوانين القياس لنماذج اللغة الكبيرة (LLMs) قد قدمت إرشادات مفيدة حول كيفية تدريب نماذج أكبر باستمرار لتحقيق مكاسب أداء متوقعة. يشترك التنبؤ بالسلاسل الزمنية في هيكل تسلسلي مشابه للغة، وهو قابل للتطبيق على معماريات التحويل الكبيرة النطاق. هنا نظهر أن نماذج المحول التأسيسية للاستقبال فقط للسلاسل الزمنية تظهر سلوك قياس مشابه لـ LLMs، في حين أن التفاصيل المعمارية (نسبة الأبعاد وعدد الرؤوس) لها أثر طفيف على نطاقات واسعة. قمنا بتجميع مجموعة كبيرة من بيانات السلاسل الزمنية المتنوعة للتدريب، ونثبت، لأول مرة، علاقات قياس قانون القوة بالنسبة لعدد المعلمات، حجم مجموعة البيانات، والكمية الحاسوبية للتدريب، ممتدة على خمسة أوامر من الحجم.
Building similarity graph...
Analyzing shared references across papers
Loading...
T. Edwards
James E. Alvey
Justin Alsing
Building similarity graph...
Analyzing shared references across papers
Loading...
درس إدواردز وآخرون (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e68fc0b6db64358761769f — DOI: https://doi.org/10.48550/arxiv.2405.13867
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: