July 23, 2017Open Access

أمثلة مضادة لتقييم أنظمة فهم القراءة

Key Points

Key points are not available for this paper at this time.

Abstract

تشير مقاييس الدقة القياسية إلى أن أنظمة فهم القراءة تحقق تقدمًا سريعًا، لكن مدى فهم هذه الأنظمة للغة بشكل حقيقي لا يزال غير واضح. لمكافأة الأنظمة التي تمتلك قدرات فهم لغوي حقيقي، نقترح طريقة تقييم مضادة لمجموعة بيانات إجابة الأسئلة في ستانفورد (SQuAD). تختبر طريقتنا ما إذا كانت الأنظمة قادرة على الإجابة على أسئلة حول فقرات تحتوي على جمل مدخلة بشكل مضاد، والتي يتم إنشاؤها تلقائيًا لتشتيت الأنظمة الحاسوبية دون تغيير الإجابة الصحيحة أو تضليل البشر. في هذا الإعداد المضاد، تنخفض دقة ستة عشر نموذجًا منشورًا من متوسط 75\% في درجة F1 إلى 36\%؛ وعندما يُسمح للخصم بإضافة تسلسلات كلمات غير نحوية، تنخفض الدقة في أربعة نماذج إلى 7\%. نأمل أن تحفز رؤانا تطوير نماذج جديدة تفهم اللغة بشكل أكثر دقة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Robin Jia

Percy Liang

Actions

Institutions

Stanford University

Laboratoire d'Informatique de Paris-Nord

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

درس جيا وآخرون (سن) هذا السؤال.

www.synapsesocial.com/papers/6a0838e2ab15ea61dee8bb12 — DOI: https://doi.org/10.48550/arxiv.1707.07328

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Multi-Perspective Context Matching for Machine Comprehension· 2016 · 115 citations
Ruminating Reader: Reasoning with Gated Multi-Hop Attention· 2017 · 14 citations
Unbounded Dependency Recovery for Parser Evaluation· 2009 · 86 citations
Mnemonic Reader for Machine Comprehension.· 2017 · 32 citations
On our best behaviour· 2014 · 103 citations

أمثلة مضادة لتقييم أنظمة فهم القراءة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider