- الوصف :
TriviaqQA هي مجموعة بيانات لفهم القراءة تحتوي على أكثر من 650 ألف سؤال وجواب ودليل ثلاثي. يتضمن TriviaqQA 95 ألف زوج من الأسئلة والأجوبة من تأليف عشاق التوافه ووثائق الأدلة التي تم جمعها بشكل مستقل ، ستة لكل سؤال في المتوسط ، والتي توفر إشرافًا عن بُعد عالي الجودة للإجابة على الأسئلة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://nlp.cs.washington.edu/triviaqa/
كود المصدر :
tfds.datasets.trivia_qa.Builder
إصدارات :
-
1.1.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
هيكل الميزة :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
إجابة | الميزات | |||
الإجابة / الأسماء المستعارة | تسلسل (نص) | (لا أحد،) | خيط | |
الإجابة / matched_wiki_entity_name | نص | خيط | ||
الإجابة / normalized_aliases | تسلسل (نص) | (لا أحد،) | خيط | |
الإجابة / normalized_matched_wiki_entity_name | نص | خيط | ||
الإجابة / normalized_value | نص | خيط | ||
الجواب / النوع | نص | خيط | ||
الجواب / القيمة | نص | خيط | ||
كيان_صفحات | تسلسل | |||
الكيان_صفحات / مصدر_المستندات | نص | خيط | ||
الكيان_صفحات / اسم الملف | نص | خيط | ||
الكيان / صفحات الكيان / العنوان | نص | خيط | ||
كيان_صفحات / wiki_context | نص | خيط | ||
سؤال | نص | خيط | ||
معرّف_السؤال | نص | خيط | ||
مصدر_السؤال | نص | خيط | ||
نتائج البحث | تسلسل | |||
search_results / description | نص | خيط | ||
search_results / اسم الملف | نص | خيط | ||
search_results / الترتيب | موتر | int32 | ||
search_results / search_context | نص | خيط | ||
search_results / العنوان | نص | خيط | ||
search_results / url | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa / rc (التكوين الافتراضي)
وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. يتضمن سياق من ويكيبيديا ونتائج البحث.
حجم التحميل : ٢ ٫
2.48 GiB
حجم مجموعة البيانات :
14.99 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 17،210 |
'train' | 138384 |
'validation' | 18669 |
- أمثلة ( tfds.as_dataframe ):
trivia_qa / rc.nocontext
وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة.
حجم التحميل : ٢ ٫
2.48 GiB
حجم مجموعة البيانات :
196.84 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 17،210 |
'train' | 138384 |
'validation' | 18669 |
- أمثلة ( tfds.as_dataframe ):
trivia_qa / غير مصفاة
وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة. يتضمن سياق من ويكيبيديا ونتائج البحث.
حجم التحميل :
3.07 GiB
حجم مجموعة البيانات :
27.27 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11،313 |
- أمثلة ( tfds.as_dataframe ):
trivia_qa / unfiltered.nocontext
وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة.
حجم التحميل :
603.25 MiB
حجم مجموعة البيانات :
119.78 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11،313 |
- أمثلة ( tfds.as_dataframe ):
- الوصف :
TriviaqQA هي مجموعة بيانات لفهم القراءة تحتوي على أكثر من 650 ألف سؤال وجواب ودليل ثلاثي. يتضمن TriviaqQA 95 ألف زوج من الأسئلة والأجوبة من تأليف عشاق التوافه ووثائق الأدلة التي تم جمعها بشكل مستقل ، ستة لكل سؤال في المتوسط ، والتي توفر إشرافًا عن بُعد عالي الجودة للإجابة على الأسئلة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://nlp.cs.washington.edu/triviaqa/
كود المصدر :
tfds.datasets.trivia_qa.Builder
إصدارات :
-
1.1.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
هيكل الميزة :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
إجابة | الميزات | |||
الإجابة / الأسماء المستعارة | تسلسل (نص) | (لا أحد،) | خيط | |
الإجابة / matched_wiki_entity_name | نص | خيط | ||
الإجابة / normalized_aliases | تسلسل (نص) | (لا أحد،) | خيط | |
الإجابة / normalized_matched_wiki_entity_name | نص | خيط | ||
الإجابة / normalized_value | نص | خيط | ||
الجواب / النوع | نص | خيط | ||
الجواب / القيمة | نص | خيط | ||
كيان_صفحات | تسلسل | |||
الكيان_صفحات / مصدر_المستندات | نص | خيط | ||
الكيان_صفحات / اسم الملف | نص | خيط | ||
الكيان / صفحات الكيان / العنوان | نص | خيط | ||
كيان_صفحات / wiki_context | نص | خيط | ||
سؤال | نص | خيط | ||
معرّف_السؤال | نص | خيط | ||
مصدر_السؤال | نص | خيط | ||
نتائج البحث | تسلسل | |||
search_results / description | نص | خيط | ||
search_results / اسم الملف | نص | خيط | ||
search_results / الترتيب | موتر | int32 | ||
search_results / search_context | نص | خيط | ||
search_results / العنوان | نص | خيط | ||
search_results / url | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa / rc (التكوين الافتراضي)
وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. يتضمن سياق من ويكيبيديا ونتائج البحث.
حجم التحميل : ٢ ٫
2.48 GiB
حجم مجموعة البيانات :
14.99 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 17،210 |
'train' | 138384 |
'validation' | 18669 |
- أمثلة ( tfds.as_dataframe ):
trivia_qa / rc.nocontext
وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة.
حجم التحميل : ٢ ٫
2.48 GiB
حجم مجموعة البيانات :
196.84 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 17،210 |
'train' | 138384 |
'validation' | 18669 |
- أمثلة ( tfds.as_dataframe ):
trivia_qa / غير مصفاة
وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة. يتضمن سياق من ويكيبيديا ونتائج البحث.
حجم التحميل :
3.07 GiB
حجم مجموعة البيانات :
27.27 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11،313 |
- أمثلة ( tfds.as_dataframe ):
trivia_qa / unfiltered.nocontext
وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة.
حجم التحميل :
603.25 MiB
حجم مجموعة البيانات :
119.78 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11،313 |
- أمثلة ( tfds.as_dataframe ):