Key points are not available for this paper at this time.
أظهرت العديد من الدراسات أن نماذج اللغة الكبيرة (LLMs) يمكن أن تنتج ردودًا ضارة، مما يعرض المستخدمين لمخاطر غير متوقعة عند نشر هذه النماذج. اقترحت الدراسات السابقة تصنيفات شاملة للمخاطر التي تشكلها نماذج اللغة الكبيرة، بالإضافة إلى مطالبات مقترنة يمكن استخدامها لفحص آليات الأمان في هذه النماذج. ومع ذلك، كان التركيز تقريبًا حصريًا على اللغة الإنجليزية، ولم يتم استكشاف العديد من الجوانب للغات أخرى. هنا نهدف إلى سد هذه الفجوة. نقدم أولاً مجموعة بيانات لتقييم السلامة في نماذج اللغة الكبيرة الصينية، ثم نوسعها إلى سيناريوهين آخرين يمكن استخدامهما للتعرف بشكل أفضل على الأمثلة السلبية الخاطئة والإيجابية الخاطئة فيما يتعلق برفض المطالبات الخطرة. كما نعرض مجموعة من معايير تقييم السلامة الدقيقة لكل نوع من أنواع المخاطر، مما يسهل كلاً من التوضيح اليدوي والتقييم التلقائي من حيث مدى ضرر استجابات نماذج اللغة الكبيرة. تظهر تجاربنا على خمسة نماذج أن المخاطر الخاصة بالمناطق هي النوع السائد من المخاطر، مما يمثل المشكلة الرئيسية مع جميع نماذج اللغة الصينية التي جربناها. تحذير: يحتوي هذا البحث على بيانات مثال قد تكون مسيئة أو ضارة أو متحيزة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuxia Wang
Zenan Zhai
Haonan Li
Building similarity graph...
Analyzing shared references across papers
Loading...
درس وانغ وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e78a60b6db6435876fcd38 — DOI: https://doi.org/10.48550/arxiv.2402.12193