Key points are not available for this paper at this time.
نقترح معيارًا لقياس ما إذا كان نموذج اللغة صادقًا في توليد إجابات على الأسئلة. يتألف المعيار من 817 سؤالًا تغطي 38 فئة، بما في ذلك الصحة، والقانون، والمالية، والسياسة. صممنا أسئلة يجيب عنها بعض البشر بشكل خاطئ بسبب اعتقاد خاطئ أو تصور مغلوط. لكي يحقق النموذج أداءً جيدًا، يجب تجنب توليد إجابات خاطئة مكتسبة من تقليد النصوص البشرية. اختبرنا GPT-3، وGPT-Neo/J، وGPT-2، ونموذجًا مبنيًا على T5. كان أفضل نموذج صادقًا في 58% من الأسئلة، بينما كان الأداء البشري 94%. قامت النماذج بتوليد العديد من الإجابات الخاطئة التي تحاكي التصورات الشائعة المغلوطة ولديها القدرة على خداع البشر. كانت النماذج الأكبر عمومًا الأقل صدقًا. وهذا يتناقض مع مهام معالجة اللغة الطبيعية الأخرى، حيث يتحسن الأداء مع زيادة حجم النموذج. ومع ذلك، هذا متوقع إذا كانت الإجابات الخاطئة مكتسبة من توزيع التدريب. نقترح أن زيادة حجم النماذج وحدها أقل وعدًا في تحسين الصدق من التوليف الدقيق باستخدام أهداف تدريبية أخرى غير تقليد النصوص من الويب.
Building similarity graph...
Analyzing shared references across papers
Loading...
Stephanie Lin
Jacob Hilton
Owain Evans
University of Oxford
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لين وزملاؤه (سات,) هذا السؤال.
www.synapsesocial.com/papers/6994f2fe03acb0fc22601bc5 — DOI: https://doi.org/10.18653/v1/2022.acl-long.229
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: