March 12, 2024Open Access

كيف يتغير سلوك ChatGPT مع مرور الوقت؟

Key Points

Key points are not available for this paper at this time.

Abstract

تُعتبر GPT-3.5 وGPT-4 هما خدمتا نماذج اللغة الكبيرة (LLM) الأكثر استخدامًا على نطاق واسع. ومع ذلك، فإن توقيت وكيفية تحديث هذه النماذج بمرور الوقت غير واضحة. هنا، نقوم بتقييم نسخ مارس 2023 ويونيو 2023 من GPT-3.5 وGPT-4 على عدة مهام متنوعة: 1) مسائل رياضية، 2) الأسئلة الحساسة/الخطيرة، 3) استبيانات الرأي، 4) الأسئلة المعرفية متعددة الخطوات، 5) توليد الكود، 6) اختبارات الترخيص الطبي الأمريكية، و7) الاستدلال البصري. وجدنا أن أداء وسلوك كل من GPT-3.5 وGPT-4 يمكن أن يتغير بشكل كبير مع مرور الوقت. على سبيل المثال، كان GPT-4 (مارس 2023) جيدًا في تحديد الأعداد الأولية مقابل المركبة (دقة 84%)، لكن GPT-4 (يونيو 2023) كان ضعيفًا في نفس الأسئلة (دقة 51%). ويُفسر ذلك جزئيًا بانخفاض قدرة GPT-4 على اتباع توجيهات سلسلة التفكير. من المثير للاهتمام أن GPT-3.5 كان أفضل بكثير في يونيو منه في مارس في هذه المهمة. أصبح GPT-4 أقل رغبة في الإجابة على الأسئلة الحساسة وأسئلة استبيانات الرأي في يونيو مقارنة بمارس. أدّى GPT-4 أداءً أفضل في الأسئلة متعددة الخطوات في يونيو مقارنة بمارس، بينما انخفض أداء GPT-3.5 في هذه المهمة. ارتكَب كل من GPT-4 وGPT-3.5 المزيد من الأخطاء التنسيقية في توليد الكود في يونيو مقارنة بمارس. نقدم أدلة على أن قدرة GPT-4 على اتباع تعليمات المستخدم قد انخفضت مع مرور الوقت، وهو عامل مشترك وراء العديد من الانحرافات السلوكية. عموماً، تُظهر نتائجنا أن سلوك خدمة النموذج الكبير "نفسها" يمكن أن يتغير بشكل جوهري خلال فترة زمنية قصيرة نسبيًا، مما يبرز الحاجة إلى المراقبة المستمرة لنماذج اللغة الكبيرة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lingjiao Chen

Matei Zaharia

James Zou

Journals

Harvard data science review

Actions

Institutions

Stanford University

University of California, Berkeley

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

كيف يتغير سلوك ChatGPT مع مرور الوقت؟

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider