- الوصف :
تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://ai.google.com/research/NaturalQuestions/dataset
كود المصدر :
tfds.datasets.natural_questions.Builder
إصدارات :
-
0.0.2
: لا توجد ملاحظات إصدار. -
0.1.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل : ٤١ ٫
41.97 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'train' | 307373 |
'validation' | 7830 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions / الافتراضي (التكوين الافتراضي)
وصف التكوين : التكوين الافتراضي natural_questions
حجم مجموعة البيانات :
90.26 GiB
هيكل الميزة :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الشروح | تسلسل | |||
التعليقات التوضيحية / معرف | موتر | خيط | ||
التعليقات التوضيحية / long_answer | الميزات | |||
التعليقات التوضيحية / long_answer / end_byte | موتر | int64 | ||
التعليقات التوضيحية / long_answer / end_token | موتر | int64 | ||
التعليقات التوضيحية / long_answer / start_byte | موتر | int64 | ||
التعليقات التوضيحية / long_answer / start_token | موتر | int64 | ||
التعليقات التوضيحية / الإجابات القصيرة | تسلسل | |||
التعليقات التوضيحية / short_answers / end_byte | موتر | int64 | ||
التعليقات التوضيحية / short_answers / end_token | موتر | int64 | ||
التعليقات التوضيحية / short_answers / start_byte | موتر | int64 | ||
التعليقات التوضيحية / short_answers / start_token | موتر | int64 | ||
التعليقات التوضيحية / الإجابات القصيرة / النص | نص | خيط | ||
التعليقات التوضيحية / yes_no_answer | ClassLabel | int64 | ||
وثيقة | الميزات | |||
وثيقة / html | نص | خيط | ||
الوثيقة / العنوان | نص | خيط | ||
الوثيقة / الرموز | تسلسل | |||
المستند / الرموز / is_html | موتر | منطقي | ||
المستند / الرموز / الرمز المميز | نص | خيط | ||
وثيقة / رابط | نص | خيط | ||
بطاقة تعريف | موتر | خيط | ||
سؤال | الميزات | |||
سؤال / نص | نص | خيط | ||
السؤال / الرموز | تسلسل (موتر) | (لا أحد،) | خيط |
- أمثلة ( tfds.as_dataframe ):
الأسئلة_الطبيعية / longt5
وصف التكوين : natural_questions المجهزة مسبقًا كما هو الحال في معيار longT5
حجم مجموعة البيانات :
8.91 GiB
هيكل الميزة :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
all_answers | تسلسل (نص) | (لا أحد،) | خيط | |
إجابة | نص | خيط | ||
سياق | نص | خيط | ||
بطاقة تعريف | نص | خيط | ||
سؤال | نص | خيط | ||
عنوان | نص | خيط |
- أمثلة ( tfds.as_dataframe ):