ai2_arc_with_ir

  • الوصف :

مجموعة بيانات جديدة تتكون من 7787 سؤالًا علميًا على مستوى المدرسة الابتدائية ، أسئلة علمية متعددة الخيارات ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. نقوم أيضًا بتضمين مجموعة من أكثر من 14 مليون جملة علمية ذات صلة بالمهمة ، وتنفيذ ثلاثة نماذج أساسية عصبية لمجموعة البيانات هذه. نحن نعتبر ARC بمثابة تحدٍ للمجتمع.

مقارنة بمجموعة البيانات الأصلية ، يضيف هذا الجمل السياقية التي تم الحصول عليها من خلال استرجاع المعلومات بنفس طريقة UnifiedQA (انظر: https://arxiv.org/abs/2005.00700 ).

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
مفتاح الحل ClassLabel int64
اختيارات تسلسل
الاختيارات / التسمية ClassLabel int64
الاختيارات / النص نص سلسلة
هوية شخصية نص سلسلة
فقرة نص سلسلة
سؤال نص سلسلة
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir / ARC-Challenge-IR (التكوين الافتراضي)

  • وصف التكوين : مجموعة التحدي المكونة من 2590 سؤالاً "صعبًا" (تلك الأسئلة التي يفشل أسلوب الاسترداد والتواجد المشترك في الإجابة عليها بشكل صحيح)

  • حجم مجموعة البيانات : 3.76 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،172
'train' 1119
'validation' 299

ai2_arc_with_ir / ARC-Easy-IR

  • وصف التكوين : مجموعة سهلة من 5197 سؤالاً لتحدي ARC.

  • حجم مجموعة البيانات : 7.49 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،376
'train' 2،251
'validation' 570