تؤسس هذه الدراسة إطار عمل جديدًا لتقييم قدرات التفكير الأخلاقي لدى نماذج اللغة الكبيرة (LLMs) بشكل منهجي مع تزايد اندماجها في المجالات الاجتماعية الحيوية. تفتقر طرق التقييم الحالية إلى الدقة اللازمة لتقييم اتخاذ القرار الأخلاقي الدقيق في أنظمة الذكاء الاصطناعي، مما يخلق فجوات كبيرة في المساءلة. يعالج إطارنا هذا التحدي من خلال قياس التوافق مع المعايير الأخلاقية الإنسانية عبر ثلاثة أبعاد: المبادئ الأخلاقية الأساسية، صلابة الاستدلال، واتساق القيم عبر سيناريوهات متنوعة. تمكّن هذه الطريقة من تحديد نقاط القوة والضعف الأخلاقية في نماذج اللغة الكبيرة بدقة، مما يسهل التحسين المستهدف وتعزيز التوافق مع القيم الاجتماعية. لتعزيز الشفافية والتقدم التعاوني في تطوير الذكاء الاصطناعي الأخلاقي، نصدر علنًا مجموعات البيانات المعيارية وقاعدة شفرة التقييم على https: //github. com/ The-Responsible-AI-Initiative/LLMEthicsBenchmark. git.
Building similarity graph...
Analyzing shared references across papers
Loading...
Junfeng Jiao
Saleh Afroogh
Arvind R. Murali
Building similarity graph...
Analyzing shared references across papers
Loading...
درس جياو وآخرون (الخميس) هذا السؤال.
www.synapsesocial.com/papers/68e03501f0e39f13e7fa38cf — DOI: https://doi.org/10.48550/arxiv.2505.00853
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: