February 19, 2024Open Access

مجموعة بيانات صينية لتقييم الضمانات في نماذج اللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

أظهرت العديد من الدراسات أن نماذج اللغة الكبيرة (LLMs) يمكن أن تنتج ردودًا ضارة، مما يعرض المستخدمين لمخاطر غير متوقعة عند نشر هذه النماذج. اقترحت الدراسات السابقة تصنيفات شاملة للمخاطر التي تشكلها نماذج اللغة الكبيرة، بالإضافة إلى مطالبات مقترنة يمكن استخدامها لفحص آليات الأمان في هذه النماذج. ومع ذلك، كان التركيز تقريبًا حصريًا على اللغة الإنجليزية، ولم يتم استكشاف العديد من الجوانب للغات أخرى. هنا نهدف إلى سد هذه الفجوة. نقدم أولاً مجموعة بيانات لتقييم السلامة في نماذج اللغة الكبيرة الصينية، ثم نوسعها إلى سيناريوهين آخرين يمكن استخدامهما للتعرف بشكل أفضل على الأمثلة السلبية الخاطئة والإيجابية الخاطئة فيما يتعلق برفض المطالبات الخطرة. كما نعرض مجموعة من معايير تقييم السلامة الدقيقة لكل نوع من أنواع المخاطر، مما يسهل كلاً من التوضيح اليدوي والتقييم التلقائي من حيث مدى ضرر استجابات نماذج اللغة الكبيرة. تظهر تجاربنا على خمسة نماذج أن المخاطر الخاصة بالمناطق هي النوع السائد من المخاطر، مما يمثل المشكلة الرئيسية مع جميع نماذج اللغة الصينية التي جربناها. تحذير: يحتوي هذا البحث على بيانات مثال قد تكون مسيئة أو ضارة أو متحيزة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuxia Wang

Zenan Zhai

Haonan Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

مجموعة بيانات صينية لتقييم الضمانات في نماذج اللغة الكبيرة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study