أسئلة_طبيعية

  • الوصف :

تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة.

ينقسم أمثلة
'train' 307373
'validation' 7830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions / الافتراضي (التكوين الافتراضي)

  • وصف التكوين : التكوين الافتراضي natural_questions

  • حجم مجموعة البيانات : 90.26 GiB

  • هيكل الميزة :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الشروح تسلسل
التعليقات التوضيحية / معرف موتر خيط
التعليقات التوضيحية / long_answer الميزات
التعليقات التوضيحية / long_answer / end_byte موتر int64
التعليقات التوضيحية / long_answer / end_token موتر int64
التعليقات التوضيحية / long_answer / start_byte موتر int64
التعليقات التوضيحية / long_answer / start_token موتر int64
التعليقات التوضيحية / الإجابات القصيرة تسلسل
التعليقات التوضيحية / short_answers / end_byte موتر int64
التعليقات التوضيحية / short_answers / end_token موتر int64
التعليقات التوضيحية / short_answers / start_byte موتر int64
التعليقات التوضيحية / short_answers / start_token موتر int64
التعليقات التوضيحية / الإجابات القصيرة / النص نص خيط
التعليقات التوضيحية / yes_no_answer ClassLabel int64
وثيقة الميزات
وثيقة / html نص خيط
الوثيقة / العنوان نص خيط
الوثيقة / الرموز تسلسل
المستند / الرموز / is_html موتر منطقي
المستند / الرموز / الرمز المميز نص خيط
وثيقة / رابط نص خيط
بطاقة تعريف موتر خيط
سؤال الميزات
سؤال / نص نص خيط
السؤال / الرموز تسلسل (موتر) (لا أحد،) خيط

الأسئلة_الطبيعية / longt5

  • وصف التكوين : natural_questions المجهزة مسبقًا كما هو الحال في معيار longT5

  • حجم مجموعة البيانات : 8.91 GiB

  • هيكل الميزة :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
all_answers تسلسل (نص) (لا أحد،) خيط
إجابة نص خيط
سياق نص خيط
بطاقة تعريف نص خيط
سؤال نص خيط
عنوان نص خيط