يسقط

  • الوصف :

مع اقتراب أداء النظام على معايير فهم القراءة الحالية من الأداء البشري أو تجاوزه ، نحتاج إلى مجموعة بيانات صلبة جديدة تعمل على تحسين قدرات الأنظمة على قراءة فقرات النص فعليًا. DROP عبارة عن معيار مرجعي مكون من 96 ألف سؤال ، تم إنشاؤه عن طريق التعارض الجماعي ، حيث يجب على النظام حل المراجع في سؤال ما ، ربما إلى مواقع إدخال متعددة ، وإجراء عمليات منفصلة عليها (مثل الإضافة أو العد أو الفرز). تتطلب هذه العمليات فهمًا أكثر شمولاً لمحتوى الفقرات مما كان ضروريًا لمجموعات البيانات السابقة.

انشق، مزق أمثلة
'dev' 9536
'train' 77409
  • هيكل الميزة :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'passage': Text(shape=(), dtype=string),
    'query_id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'validated_answers': Sequence(Text(shape=(), dtype=string)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
إجابه نص سلسلة
الممر نص سلسلة
معرّف_ الاستعلام نص سلسلة
سؤال نص سلسلة
الإجابات المصدق عليها تسلسل (نص) (لا أحد،) سلسلة
  • الاقتباس :
@inproceedings{Dua2019DROP,
  author={Dheeru Dua and Yizhong Wang and Pradeep Dasigi and Gabriel Stanovsky and Sameer Singh and Matt Gardner},
  title={  {DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs},
  booktitle={Proc. of NAACL},
  year={2019}
}