- الوصف :
مجموعة بيانات جديدة تتكون من 7787 سؤالًا علميًا على مستوى المدرسة الابتدائية ، أسئلة علمية متعددة الخيارات ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. نقوم أيضًا بتضمين مجموعة من أكثر من 14 مليون جملة علمية ذات صلة بالمهمة ، وتنفيذ ثلاثة نماذج أساسية عصبية لمجموعة البيانات هذه. نحن نعتبر ARC بمثابة تحدٍ للمجتمع.
مقارنة بمجموعة البيانات الأصلية ، يضيف هذا الجمل السياقية التي تم الحصول عليها من خلال استرجاع المعلومات بنفس طريقة UnifiedQA (انظر: https://arxiv.org/abs/2005.00700 ).
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://allenai.org/data/arc
كود المصدر :
tfds.datasets.ai2_arc_with_ir.Builder
إصدارات :
-
1.0.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
3.68 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
هيكل الميزة :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
مفتاح الحل | ClassLabel | int64 | ||
اختيارات | تسلسل | |||
الاختيارات / التسمية | ClassLabel | int64 | ||
الاختيارات / النص | نص | سلسلة | ||
هوية شخصية | نص | سلسلة | ||
فقرة | نص | سلسلة | ||
سؤال | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir / ARC-Challenge-IR (التكوين الافتراضي)
وصف التكوين : مجموعة التحدي المكونة من 2590 سؤالاً "صعبًا" (تلك الأسئلة التي يفشل أسلوب الاسترداد والتواجد المشترك في الإجابة عليها بشكل صحيح)
حجم مجموعة البيانات :
3.76 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،172 |
'train' | 1119 |
'validation' | 299 |
- أمثلة ( tfds.as_dataframe ):
ai2_arc_with_ir / ARC-Easy-IR
وصف التكوين : مجموعة سهلة من 5197 سؤالاً لتحدي ARC.
حجم مجموعة البيانات :
7.49 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،376 |
'train' | 2،251 |
'validation' | 570 |
- أمثلة ( tfds.as_dataframe ):