June 17, 2024Open Access

هل يمكن لـ LLM أن يكون قاضيًا مخصّصًا؟

Key Points

Key points are not available for this paper at this time.

Abstract

ضمان أن تعكس النماذج اللغوية الكبيرة (LLMs) قيم وتفضيلات المستخدمين المتنوعة أمر بالغ الأهمية مع توسع قواعد مستخدميها عالميًا. لذلك، من المشجع رؤية الاهتمام المتزايد بتخصيص LLM داخل مجتمع البحث. ومع ذلك، تعتمد الأعمال الحالية غالبًا على نهج LLM كقاضٍ للتقييم دون دراسة دقيقة لصلاحيته. في هذه الورقة، نحقق في موثوقية LLM كقاضٍ مخصّص، حيث نطلب من LLM إصدار أحكام على تفضيلات المستخدمين بناءً على الشخصيات. تشير نتائجنا إلى أن تطبيق LLM كقاضٍ مخصّص مباشرة أقل موثوقية مما كان مفترضًا سابقًا، حيث يظهر اتفاقًا منخفضًا ومتفاوتًا مع الحقيقة البشرية. غالبًا ما تكون الشخصيات المستخدمة مبسطة جدًا، مما يؤدي إلى قدرة تنبؤية منخفضة. لمعالجة هذه المشكلات، نقدم تقدير عدم اليقين اللفظي في سلسلة LLM كقاضٍ مخصّص، مما يسمح للنموذج بالتعبير عن ثقة منخفضة في الأحكام غير المؤكدة. يؤدي هذا التعديل إلى اتفاق أعلى بكثير (أكثر من 80٪) في العينات عالية اليقين للمهام الثنائية. من خلال التقييم البشري، نجد أن LLM كقاضٍ مخصّص يحقق أداءً قابلًا للمقارنة مع تقييمات البشر من طرف ثالث ويتجاوز أداء البشر في العينات عالية اليقين. يشير عملنا إلى أن تحسين اليقين في LLM كقاضٍ مخصّص يقدم اتجاهًا واعدًا لتطوير طرق أكثر موثوقية وقابلة للتوسع في تقييم تخصيص LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yijiang River Dong

Tiancheng Hu

Nigel Collier

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

هل يمكن لـ LLM أن يكون قاضيًا مخصّصًا؟

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider