trivia_qa

  • الوصف :

TriviaqQA هي مجموعة بيانات لفهم القراءة تحتوي على أكثر من 650 ألف سؤال وجواب ودليل ثلاثي. يتضمن TriviaqQA 95 ألف زوج من الأسئلة والأجوبة من تأليف عشاق التوافه ووثائق الأدلة التي تم جمعها بشكل مستقل ، ستة لكل سؤال في المتوسط ​​، والتي توفر إشرافًا عن بُعد عالي الجودة للإجابة على الأسئلة.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
إجابة الميزات
الإجابة / الأسماء المستعارة تسلسل (نص) (لا أحد،) خيط
الإجابة / matched_wiki_entity_name نص خيط
الإجابة / normalized_aliases تسلسل (نص) (لا أحد،) خيط
الإجابة / normalized_matched_wiki_entity_name نص خيط
الإجابة / normalized_value نص خيط
الجواب / النوع نص خيط
الجواب / القيمة نص خيط
كيان_صفحات تسلسل
الكيان_صفحات / مصدر_المستندات نص خيط
الكيان_صفحات / اسم الملف نص خيط
الكيان / صفحات الكيان / العنوان نص خيط
كيان_صفحات / wiki_context نص خيط
سؤال نص خيط
معرّف_السؤال نص خيط
مصدر_السؤال نص خيط
نتائج البحث تسلسل
search_results / description نص خيط
search_results / اسم الملف نص خيط
search_results / الترتيب موتر int32
search_results / search_context نص خيط
search_results / العنوان نص خيط
search_results / url نص خيط
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa / rc (التكوين الافتراضي)

  • وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. يتضمن سياق من ويكيبيديا ونتائج البحث.

  • حجم التحميل : ٢ ٫ 2.48 GiB

  • حجم مجموعة البيانات : 14.99 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 17،210
'train' 138384
'validation' 18669

trivia_qa / rc.nocontext

  • وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة.

  • حجم التحميل : ٢ ٫ 2.48 GiB

  • حجم مجموعة البيانات : 196.84 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

ينقسم أمثلة
'test' 17،210
'train' 138384
'validation' 18669

trivia_qa / غير مصفاة

  • وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة. يتضمن سياق من ويكيبيديا ونتائج البحث.

  • حجم التحميل : 3.07 GiB

  • حجم مجموعة البيانات : 27.27 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 10832
'train' 87622
'validation' 11،313

trivia_qa / unfiltered.nocontext

  • وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة.

  • حجم التحميل : 603.25 MiB

  • حجم مجموعة البيانات : 119.78 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

ينقسم أمثلة
'test' 10832
'train' 87622
'validation' 11،313
و

  • الوصف :

TriviaqQA هي مجموعة بيانات لفهم القراءة تحتوي على أكثر من 650 ألف سؤال وجواب ودليل ثلاثي. يتضمن TriviaqQA 95 ألف زوج من الأسئلة والأجوبة من تأليف عشاق التوافه ووثائق الأدلة التي تم جمعها بشكل مستقل ، ستة لكل سؤال في المتوسط ​​، والتي توفر إشرافًا عن بُعد عالي الجودة للإجابة على الأسئلة.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
إجابة الميزات
الإجابة / الأسماء المستعارة تسلسل (نص) (لا أحد،) خيط
الإجابة / matched_wiki_entity_name نص خيط
الإجابة / normalized_aliases تسلسل (نص) (لا أحد،) خيط
الإجابة / normalized_matched_wiki_entity_name نص خيط
الإجابة / normalized_value نص خيط
الجواب / النوع نص خيط
الجواب / القيمة نص خيط
كيان_صفحات تسلسل
الكيان_صفحات / مصدر_المستندات نص خيط
الكيان_صفحات / اسم الملف نص خيط
الكيان / صفحات الكيان / العنوان نص خيط
كيان_صفحات / wiki_context نص خيط
سؤال نص خيط
معرّف_السؤال نص خيط
مصدر_السؤال نص خيط
نتائج البحث تسلسل
search_results / description نص خيط
search_results / اسم الملف نص خيط
search_results / الترتيب موتر int32
search_results / search_context نص خيط
search_results / العنوان نص خيط
search_results / url نص خيط
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa / rc (التكوين الافتراضي)

  • وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. يتضمن سياق من ويكيبيديا ونتائج البحث.

  • حجم التحميل : ٢ ٫ 2.48 GiB

  • حجم مجموعة البيانات : 14.99 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 17،210
'train' 138384
'validation' 18669

trivia_qa / rc.nocontext

  • وصف التكوين : أزواج الأسئلة والإجابات حيث تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة.

  • حجم التحميل : ٢ ٫ 2.48 GiB

  • حجم مجموعة البيانات : 196.84 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

ينقسم أمثلة
'test' 17،210
'train' 138384
'validation' 18669

trivia_qa / غير مصفاة

  • وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة. يتضمن سياق من ويكيبيديا ونتائج البحث.

  • حجم التحميل : 3.07 GiB

  • حجم مجموعة البيانات : 27.27 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 10832
'train' 87622
'validation' 11،313

trivia_qa / unfiltered.nocontext

  • وصف التكوين : 110 ألف زوج من الأسئلة والأجوبة للمجال المفتوح لضمان الجودة حيث لا تحتوي جميع المستندات الخاصة بسؤال معين على سلسلة (سلاسل) الإجابة. هذا يجعل مجموعة البيانات غير المفلترة أكثر ملاءمة لنمط IR لضمان الجودة.

  • حجم التحميل : 603.25 MiB

  • حجم مجموعة البيانات : 119.78 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

ينقسم أمثلة
'test' 10832
'train' 87622
'validation' 11،313