Key points are not available for this paper at this time.
تُعتبر GPT-3.5 وGPT-4 هما خدمتا نماذج اللغة الكبيرة (LLM) الأكثر استخدامًا على نطاق واسع. ومع ذلك، فإن توقيت وكيفية تحديث هذه النماذج بمرور الوقت غير واضحة. هنا، نقوم بتقييم نسخ مارس 2023 ويونيو 2023 من GPT-3.5 وGPT-4 على عدة مهام متنوعة: 1) مسائل رياضية، 2) الأسئلة الحساسة/الخطيرة، 3) استبيانات الرأي، 4) الأسئلة المعرفية متعددة الخطوات، 5) توليد الكود، 6) اختبارات الترخيص الطبي الأمريكية، و7) الاستدلال البصري. وجدنا أن أداء وسلوك كل من GPT-3.5 وGPT-4 يمكن أن يتغير بشكل كبير مع مرور الوقت. على سبيل المثال، كان GPT-4 (مارس 2023) جيدًا في تحديد الأعداد الأولية مقابل المركبة (دقة 84%)، لكن GPT-4 (يونيو 2023) كان ضعيفًا في نفس الأسئلة (دقة 51%). ويُفسر ذلك جزئيًا بانخفاض قدرة GPT-4 على اتباع توجيهات سلسلة التفكير. من المثير للاهتمام أن GPT-3.5 كان أفضل بكثير في يونيو منه في مارس في هذه المهمة. أصبح GPT-4 أقل رغبة في الإجابة على الأسئلة الحساسة وأسئلة استبيانات الرأي في يونيو مقارنة بمارس. أدّى GPT-4 أداءً أفضل في الأسئلة متعددة الخطوات في يونيو مقارنة بمارس، بينما انخفض أداء GPT-3.5 في هذه المهمة. ارتكَب كل من GPT-4 وGPT-3.5 المزيد من الأخطاء التنسيقية في توليد الكود في يونيو مقارنة بمارس. نقدم أدلة على أن قدرة GPT-4 على اتباع تعليمات المستخدم قد انخفضت مع مرور الوقت، وهو عامل مشترك وراء العديد من الانحرافات السلوكية. عموماً، تُظهر نتائجنا أن سلوك خدمة النموذج الكبير "نفسها" يمكن أن يتغير بشكل جوهري خلال فترة زمنية قصيرة نسبيًا، مما يبرز الحاجة إلى المراقبة المستمرة لنماذج اللغة الكبيرة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lingjiao Chen
Matei Zaharia
James Zou
Harvard data science review
Stanford University
University of California, Berkeley
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Chen وآخرون (الثلاثاء) هذا السؤال.
www.synapsesocial.com/papers/68e745a1b6db6435876be61d — DOI: https://doi.org/10.1162/99608f92.5317da47
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: