Key points are not available for this paper at this time.
تشير مقاييس الدقة القياسية إلى أن أنظمة فهم القراءة تحقق تقدمًا سريعًا، لكن مدى فهم هذه الأنظمة للغة بشكل حقيقي لا يزال غير واضح. لمكافأة الأنظمة التي تمتلك قدرات فهم لغوي حقيقي، نقترح طريقة تقييم مضادة لمجموعة بيانات إجابة الأسئلة في ستانفورد (SQuAD). تختبر طريقتنا ما إذا كانت الأنظمة قادرة على الإجابة على أسئلة حول فقرات تحتوي على جمل مدخلة بشكل مضاد، والتي يتم إنشاؤها تلقائيًا لتشتيت الأنظمة الحاسوبية دون تغيير الإجابة الصحيحة أو تضليل البشر. في هذا الإعداد المضاد، تنخفض دقة ستة عشر نموذجًا منشورًا من متوسط 75\% في درجة F1 إلى 36\%؛ وعندما يُسمح للخصم بإضافة تسلسلات كلمات غير نحوية، تنخفض الدقة في أربعة نماذج إلى 7\%. نأمل أن تحفز رؤانا تطوير نماذج جديدة تفهم اللغة بشكل أكثر دقة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Robin Jia
Percy Liang
Stanford University
Laboratoire d'Informatique de Paris-Nord
Building similarity graph...
Analyzing shared references across papers
Loading...
درس جيا وآخرون (سن) هذا السؤال.
www.synapsesocial.com/papers/6a0838e2ab15ea61dee8bb12 — DOI: https://doi.org/10.48550/arxiv.1707.07328
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: