Key points are not available for this paper at this time.
ضمان أن تعكس النماذج اللغوية الكبيرة (LLMs) قيم وتفضيلات المستخدمين المتنوعة أمر بالغ الأهمية مع توسع قواعد مستخدميها عالميًا. لذلك، من المشجع رؤية الاهتمام المتزايد بتخصيص LLM داخل مجتمع البحث. ومع ذلك، تعتمد الأعمال الحالية غالبًا على نهج LLM كقاضٍ للتقييم دون دراسة دقيقة لصلاحيته. في هذه الورقة، نحقق في موثوقية LLM كقاضٍ مخصّص، حيث نطلب من LLM إصدار أحكام على تفضيلات المستخدمين بناءً على الشخصيات. تشير نتائجنا إلى أن تطبيق LLM كقاضٍ مخصّص مباشرة أقل موثوقية مما كان مفترضًا سابقًا، حيث يظهر اتفاقًا منخفضًا ومتفاوتًا مع الحقيقة البشرية. غالبًا ما تكون الشخصيات المستخدمة مبسطة جدًا، مما يؤدي إلى قدرة تنبؤية منخفضة. لمعالجة هذه المشكلات، نقدم تقدير عدم اليقين اللفظي في سلسلة LLM كقاضٍ مخصّص، مما يسمح للنموذج بالتعبير عن ثقة منخفضة في الأحكام غير المؤكدة. يؤدي هذا التعديل إلى اتفاق أعلى بكثير (أكثر من 80٪) في العينات عالية اليقين للمهام الثنائية. من خلال التقييم البشري، نجد أن LLM كقاضٍ مخصّص يحقق أداءً قابلًا للمقارنة مع تقييمات البشر من طرف ثالث ويتجاوز أداء البشر في العينات عالية اليقين. يشير عملنا إلى أن تحسين اليقين في LLM كقاضٍ مخصّص يقدم اتجاهًا واعدًا لتطوير طرق أكثر موثوقية وقابلة للتوسع في تقييم تخصيص LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yijiang River Dong
Tiancheng Hu
Nigel Collier
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Dong وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e64779b6db6435875d9135 — DOI: https://doi.org/10.48550/arxiv.2406.11657
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: