- الوصف :
يتكون معيار UnifiedQA من 20 مجموعة بيانات رئيسية للإجابة على الأسئلة (QA) (قد يكون لكل منها إصدارات متعددة) التي تستهدف تنسيقات مختلفة بالإضافة إلى العديد من الظواهر اللغوية المعقدة. يتم تجميع مجموعات البيانات هذه في عدة تنسيقات / فئات ، بما في ذلك: QA الاستخراجي ، و QA التجريدي ، و QA متعدد الخيارات ، و Yes / no QA. بالإضافة إلى ذلك ، تُستخدم مجموعات التباين للعديد من مجموعات البيانات (يُشار إليها بـ " مجموعات التباين"). مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية. بالنسبة للعديد من مجموعات البيانات التي لا تأتي مع فقرات الأدلة ، يتم تضمين متغيرين: أحدهما يستخدم مجموعات البيانات كما هي والآخر يستخدم الفقرات التي تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي ، يشار إليه بعلامات "_ir".
يمكن العثور على مزيد من المعلومات على: https://github.com/allenai/unifiedqa
الصفحة الرئيسية https://github.com/allenai/unifiedqa
كود المصدر :
tfds.text.unifiedqa.UnifiedQA
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
هيكل الميزة :
FeaturesDict({
'input': string,
'output': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الإدخال | موتر | سلسلة | ||
انتاج | موتر | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
unified_qa / ai2_science_elementary (التكوين الافتراضي)
وصف التكوين : تتكون مجموعة بيانات الأسئلة العلمية AI2 من الأسئلة المستخدمة في تقييمات الطلاب في الولايات المتحدة عبر مستويات الصفوف الابتدائية والمتوسطة. كل سؤال عبارة عن تنسيق متعدد الخيارات رباعي الاتجاهات وقد يتضمن أو لا يتضمن عنصر مخطط. تتكون هذه المجموعة من الأسئلة المستخدمة لمستويات الصف الابتدائي.
حجم التحميل :
345.59 KiB
حجم مجموعة البيانات :
390.02 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 542 |
'train' | 623 |
'validation' | 123 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / ai2_science_middle
وصف التكوين : تتكون مجموعة بيانات الأسئلة العلمية AI2 من الأسئلة المستخدمة في تقييمات الطلاب في الولايات المتحدة عبر مستويات الصفوف الابتدائية والمتوسطة. كل سؤال عبارة عن تنسيق متعدد الخيارات رباعي الاتجاهات وقد يتضمن أو لا يتضمن عنصر مخطط. تتكون هذه المجموعة من الأسئلة المستخدمة لمستويات الصفوف المتوسطة.
حجم التحميل :
428.41 KiB
حجم مجموعة البيانات :
477.40 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 679 |
'train' | 605 |
'validation' | 125 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / الغمضة
وصف التكوين : AmbigQA عبارة عن مهمة تجيب على سؤال مفتوح المجال تتضمن إيجاد كل إجابة معقولة ، ثم إعادة كتابة السؤال لكل سؤال لحل الغموض.
حجم التحميل :
2.27 MiB
حجم مجموعة البيانات :
3.04 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 19806 |
'validation' | 5674 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{min-etal-2020-ambigqa,
title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
author = "Min, Sewon and
Michael, Julian and
Hajishirzi, Hannaneh and
Zettlemoyer, Luke",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.466",
doi = "10.18653/v1/2020.emnlp-main.466",
pages = "5783--5797",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_easy
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة".
حجم التحميل :
1.24 MiB
حجم مجموعة البيانات :
1.42 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،376 |
'train' | 2،251 |
'validation' | 570 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_easy_dev
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة".
حجم التحميل :
1.24 MiB
حجم مجموعة البيانات :
1.42 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،376 |
'train' | 2،251 |
'validation' | 570 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_easy_with_ir
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
7.00 MiB
حجم مجموعة البيانات :
7.17 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،376 |
'train' | 2،251 |
'validation' | 570 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_easy_with_ir_dev
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
7.00 MiB
حجم مجموعة البيانات :
7.17 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،376 |
'train' | 2،251 |
'validation' | 570 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_hard
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة".
حجم التحميل :
758.03 KiB
حجم مجموعة البيانات :
848.28 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،172 |
'train' | 1119 |
'validation' | 299 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_hard_dev
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة".
حجم التحميل :
758.03 KiB
حجم مجموعة البيانات :
848.28 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،172 |
'train' | 1119 |
'validation' | 299 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_hard_with_ir
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
3.53 MiB
حجم مجموعة البيانات :
3.62 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،172 |
'train' | 1119 |
'validation' | 299 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / arc_hard_with_ir_dev
وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
3.53 MiB
حجم مجموعة البيانات :
3.62 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،172 |
'train' | 1119 |
'validation' | 299 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / boolq
وصف التكوين : BoolQ هو سؤال يجيب على مجموعة بيانات لأسئلة نعم / لا. هذه الأسئلة تحدث بشكل طبيعي - يتم إنشاؤها في إعدادات غير مقيدة وغير مقيدة. كل مثال عبارة عن مجموعة ثلاثية من (سؤال ، فقرة ، إجابة) ، مع عنوان الصفحة كسياق إضافي اختياري. يشبه إعداد تصنيف أزواج النص مهام استدلال اللغة الطبيعية الحالية.
حجم التحميل :
7.77 MiB
حجم مجموعة البيانات :
8.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 9427 |
'validation' | 3270 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / boolq_np
وصف التكوين : BoolQ هو سؤال يجيب على مجموعة بيانات لأسئلة نعم / لا. هذه الأسئلة تحدث بشكل طبيعي - يتم إنشاؤها في إعدادات غير مقيدة وغير مقيدة. كل مثال عبارة عن مجموعة ثلاثية من (سؤال ، فقرة ، إجابة) ، مع عنوان الصفحة كسياق إضافي اختياري. يشبه إعداد تصنيف أزواج النص مهام استدلال اللغة الطبيعية الحالية. يضيف هذا الإصدار اضطرابات طبيعية إلى الإصدار الأصلي.
حجم التحميل :
10.80 MiB
حجم مجموعة البيانات :
11.40 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 9727 |
'validation' | 7596 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{khashabi-etal-2020-bang,
title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
author = "Khashabi, Daniel and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.12",
doi = "10.18653/v1/2020.emnlp-main.12",
pages = "163--170",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / commonsenseqa
وصف التكوين : CommonsenseQA هو سؤال متعدد الخيارات يجيب على مجموعة البيانات التي تتطلب أنواعًا مختلفة من المعرفة المنطقية للتنبؤ بالإجابات الصحيحة. يحتوي على أسئلة بإجابة واحدة صحيحة وأربع إجابات مشتتة.
حجم التحميل :
1.79 MiB
حجم مجموعة البيانات :
2.19 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1140 |
'train' | 9741 |
'validation' | 1،221 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / commonsenseqa_test
وصف التكوين : CommonsenseQA هو سؤال متعدد الخيارات يجيب على مجموعة البيانات التي تتطلب أنواعًا مختلفة من المعرفة المنطقية للتنبؤ بالإجابات الصحيحة. يحتوي على أسئلة بإجابة واحدة صحيحة وأربع إجابات مشتتة.
حجم التحميل :
1.79 MiB
حجم مجموعة البيانات :
2.19 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1140 |
'train' | 9741 |
'validation' | 1،221 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / التباين_مجموعات_البولق
وصف التكوين : BoolQ هو سؤال يجيب على مجموعة بيانات لأسئلة نعم / لا. هذه الأسئلة تحدث بشكل طبيعي - يتم إنشاؤها في إعدادات غير مقيدة وغير مقيدة. كل مثال عبارة عن مجموعة ثلاثية من (سؤال ، فقرة ، إجابة) ، مع عنوان الصفحة كسياق إضافي اختياري. يشبه إعداد تصنيف أزواج النص مهام استدلال اللغة الطبيعية الحالية. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.
حجم التحميل :
438.51 KiB
حجم مجموعة البيانات :
462.35 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 340 |
'validation' | 340 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / التباين_مجموعات_drop
وصف التكوين : DROP عبارة عن معيار مرجعي لضمان الجودة يتم تعهيده عن طريق التعهيد الجماعي ، حيث يجب على النظام حل المراجع في سؤال ما ، ربما إلى مواقع إدخال متعددة ، وإجراء عمليات منفصلة عليها (مثل الإضافة أو العد أو الفرز). تتطلب هذه العمليات فهمًا أكثر شمولاً لمحتوى الفقرات مما كان ضروريًا لمجموعات البيانات السابقة. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.
حجم التحميل :
2.20 MiB
حجم مجموعة البيانات :
2.26 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 947 |
'validation' | 947 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / مجموعات التباين_ quoref
وصف التكوين : تختبر مجموعة البيانات هذه القدرة على التفكير المرجعي لأنظمة فهم القراءة. في هذا المعيار المعياري لتحديد الامتداد الذي يحتوي على أسئلة فوق فقرات من ويكيبيديا ، يجب على النظام حل المراجع الصلبة قبل تحديد الامتداد (النطاقات) المناسبة في الفقرات للإجابة على الأسئلة. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.
حجم التحميل :
2.60 MiB
حجم مجموعة البيانات :
2.65 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 700 |
'validation' | 700 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / التباين_مجموعات_ropes
وصف التكوين : تختبر مجموعة البيانات هذه قدرة النظام على تطبيق المعرفة من مرور النص إلى حالة جديدة. يتم تقديم فقرة خلفية للنظام تحتوي على علاقة (علاقات) سببية أو نوعية (على سبيل المثال ، "الملقحات الحيوانية تزيد من كفاءة الإخصاب في الأزهار") ، وهي حالة جديدة تستخدم هذه الخلفية ، والأسئلة التي تتطلب التفكير حول تأثيرات العلاقات في فقرة الخلفية في سياق الموقف. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.
حجم التحميل :
1.97 MiB
حجم مجموعة البيانات :
2.04 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 974 |
'validation' | 974 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / قطرة
وصف التكوين : DROP عبارة عن معيار مرجعي لضمان الجودة يتم تعهيده عن طريق التعهيد الجماعي ، حيث يجب على النظام حل المراجع في سؤال ما ، ربما إلى مواقع إدخال متعددة ، وإجراء عمليات منفصلة عليها (مثل الإضافة أو العد أو الفرز). تتطلب هذه العمليات فهمًا أكثر شمولاً لمحتوى الفقرات مما كان ضروريًا لمجموعات البيانات السابقة.
حجم التحميل :
105.18 MiB
حجم مجموعة البيانات :
108.16 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 77399 |
'validation' | 9536 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / mctest
وصف التكوين : يتطلب MCTest أن تجيب الآلات على أسئلة الفهم القرائي متعددة الاختيارات حول القصص الخيالية ، وتعالج بشكل مباشر الهدف رفيع المستوى لفهم الآلة في المجال المفتوح. يمكن أن يختبر الفهم القرائي القدرات المتقدمة مثل التفكير السببي وفهم العالم ، ومع ذلك ، من خلال كونه متعدد الاختيارات ، لا يزال يوفر مقياسًا واضحًا. من خلال كونها خيالية ، يمكن العثور على الإجابة عادة في القصة نفسها فقط. تقتصر القصص والأسئلة بعناية أيضًا على تلك التي يفهمها الطفل الصغير ، مما يقلل من المعرفة العالمية المطلوبة للمهمة.
حجم التحميل :
2.14 MiB
حجم مجموعة البيانات :
2.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1480 |
'validation' | 320 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / mctest_corrected_the_separator
وصف التكوين : يتطلب MCTest أن تجيب الآلات على أسئلة الفهم القرائي متعددة الاختيارات حول القصص الخيالية ، وتعالج بشكل مباشر الهدف رفيع المستوى لفهم الآلة في المجال المفتوح. يمكن أن يختبر الفهم القرائي القدرات المتقدمة مثل التفكير السببي وفهم العالم ، ومع ذلك ، من خلال كونه متعدد الاختيارات ، لا يزال يوفر مقياسًا واضحًا. من خلال كونها خيالية ، يمكن العثور على الإجابة عادة في القصة نفسها فقط. تقتصر القصص والأسئلة بعناية أيضًا على تلك التي يفهمها الطفل الصغير ، مما يقلل من المعرفة العالمية المطلوبة للمهمة.
حجم التحميل :
2.15 MiB
حجم مجموعة البيانات :
2.21 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1480 |
'validation' | 320 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / مولتيرك
وصف التكوين : يعد MultiRC تحديًا لفهم القراءة حيث لا يمكن الإجابة على الأسئلة إلا من خلال مراعاة المعلومات المأخوذة من جمل متعددة. تم التماس أسئلة وأجوبة لهذا التحدي والتحقق منها من خلال تجربة التعهيد الجماعي المكونة من 4 خطوات. تحتوي مجموعة البيانات على أسئلة للفقرات عبر 7 مجالات مختلفة (علوم المدرسة الابتدائية ، والأخبار ، وأدلة السفر ، والقصص الخيالية ، وما إلى ذلك) مما يجلب التنوع اللغوي إلى النصوص وصياغة الأسئلة.
حجم التحميل :
897.09 KiB
حجم مجموعة البيانات :
918.42 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 312 |
'validation' | 312 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{khashabi-etal-2018-looking,
title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
author = "Khashabi, Daniel and
Chaturvedi, Snigdha and
Roth, Michael and
Upadhyay, Shyam and
Roth, Dan",
booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
month = jun,
year = "2018",
address = "New Orleans, Louisiana",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N18-1023",
doi = "10.18653/v1/N18-1023",
pages = "252--262",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / narrativeqa
وصف التكوين : NarrativeQA عبارة عن مجموعة بيانات باللغة الإنجليزية - lanaguage من القصص والأسئلة المقابلة المصممة لاختبار فهم القراءة ، خاصة في المستندات الطويلة.
حجم التحميل :
308.28 MiB
حجم مجموعة البيانات :
311.22 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 21114 |
'train' | 65494 |
'validation' | 6922 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / narrativeqa_dev
وصف التكوين : NarrativeQA عبارة عن مجموعة بيانات باللغة الإنجليزية - lanaguage من القصص والأسئلة المقابلة المصممة لاختبار فهم القراءة ، خاصة في المستندات الطويلة.
حجم التحميل :
308.28 MiB
حجم مجموعة البيانات :
311.22 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 21114 |
'train' | 65494 |
'validation' | 6922 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / الأسئلة الطبيعية
وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة.
حجم التحميل :
6.95 MiB
حجم مجموعة البيانات :
9.88 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 96.075 |
'validation' | 2،295 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / natural_questions_direct_ans
وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتكون هذا الإصدار من أسئلة الإجابة المباشرة.
حجم التحميل :
6.82 MiB
حجم مجموعة البيانات :
10.19 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6468 |
'train' | 96676 |
'validation' | 10693 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / natural_questions_direct_ans_test
وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتكون هذا الإصدار من أسئلة الإجابة المباشرة.
حجم التحميل :
6.82 MiB
حجم مجموعة البيانات :
10.19 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6468 |
'train' | 96676 |
'validation' | 10693 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / natural_questions_with_dpr_para
وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتضمن هذا الإصدار فقرات إضافية (تم الحصول عليها باستخدام محرك استرجاع DPR) لزيادة كل سؤال.
حجم التحميل :
319.22 MiB
حجم مجموعة البيانات :
322.91 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 96676 |
'validation' | 10693 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / natural_questions_with_dpr_para_test
وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتضمن هذا الإصدار فقرات إضافية (تم الحصول عليها باستخدام محرك استرجاع DPR) لزيادة كل سؤال.
حجم التحميل :
306.94 MiB
حجم مجموعة البيانات :
310.48 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6468 |
'train' | 96676 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / newsqa
وصف التكوين : NewsQA عبارة عن مجموعة بيانات صعبة لفهم الآلة لأزواج من أسئلة وأجوبة من صنع الإنسان. يوفر Crowdworkers أسئلة وأجوبة بناءً على مجموعة من المقالات الإخبارية من CNN ، مع إجابات تتكون من مسافات نصية من المقالات المقابلة.
حجم التحميل :
283.33 MiB
حجم مجموعة البيانات :
285.94 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 75882 |
'validation' | 4309 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{trischler-etal-2017-newsqa,
title = "{N}ews{QA}: A Machine Comprehension Dataset",
author = "Trischler, Adam and
Wang, Tong and
Yuan, Xingdi and
Harris, Justin and
Sordoni, Alessandro and
Bachman, Philip and
Suleman, Kaheer",
booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
month = aug,
year = "2017",
address = "Vancouver, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W17-2623",
doi = "10.18653/v1/W17-2623",
pages = "191--200",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / openbookqa
وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع.
حجم التحميل :
942.34 KiB
حجم مجموعة البيانات :
1.11 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 500 |
'train' | 4،957 |
'validation' | 500 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / openbookqa_dev
وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع.
حجم التحميل :
942.34 KiB
حجم مجموعة البيانات :
1.11 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 500 |
'train' | 4،957 |
'validation' | 500 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / openbookqa_with_ir
وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
6.08 MiB
حجم مجموعة البيانات :
6.28 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 500 |
'train' | 4،957 |
'validation' | 500 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / openbookqa_with_ir_dev
وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
6.08 MiB
حجم مجموعة البيانات :
6.28 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 500 |
'train' | 4،957 |
'validation' | 500 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / phys_iqa
وصف التكوين : هذه مجموعة بيانات لقياس التقدم في الفهم المادي المنطقي. المهمة الأساسية هي الإجابة على أسئلة الاختيار من متعدد: بالنظر إلى السؤال q والحلين المحتملين s1 أو s2 ، يجب أن يختار النموذج أو الإنسان الحل الأنسب ، والذي يكون أحدهما صحيحًا بالضبط. تركز مجموعة البيانات على المواقف اليومية مع تفضيل الحلول غير النمطية. مجموعة البيانات مستوحاة من موقع Instructables.com ، الذي يزود المستخدمين بإرشادات حول كيفية إنشاء الكائنات أو صنعها أو خبزها أو معالجتها باستخدام المواد اليومية. يُطلب من المعلقين تقديم الاضطرابات الدلالية أو المناهج البديلة التي تكون بخلاف ذلك متشابهة من الناحية التركيبية والموضوعية لضمان استهداف المعرفة المادية. يتم تنظيف مجموعة البيانات بشكل أكبر من القطع الأثرية الأساسية باستخدام خوارزمية AFLite.
حجم التحميل :
6.01 MiB
حجم مجموعة البيانات :
6.59 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 16113 |
'validation' | 1،838 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{bisk2020piqa,
title={Piqa: Reasoning about physical commonsense in natural language},
author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={7432--7439},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / qasc
وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة.
حجم التحميل :
1.75 MiB
حجم مجموعة البيانات :
2.09 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / qasc_test
وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة.
حجم التحميل :
1.75 MiB
حجم مجموعة البيانات :
2.09 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / qasc_with_ir
وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
16.95 MiB
حجم مجموعة البيانات :
17.30 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / qasc_with_ir_test
وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.
حجم التحميل :
16.95 MiB
حجم مجموعة البيانات :
17.30 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / quoref
وصف التكوين : تختبر مجموعة البيانات هذه القدرة على التفكير المرجعي لأنظمة فهم القراءة. في هذا المعيار المعياري لتحديد الامتداد الذي يحتوي على أسئلة فوق فقرات من ويكيبيديا ، يجب على النظام حل المراجع الصلبة قبل تحديد الامتداد (النطاقات) المناسبة في الفقرات للإجابة على الأسئلة.
حجم التحميل :
51.43 MiB
حجم مجموعة البيانات :
52.29 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 22265 |
'validation' | 2768 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / Race_string
وصف التكوين : Race عبارة عن مجموعة بيانات واسعة النطاق لفهم القراءة. يتم جمع مجموعة البيانات من اختبارات اللغة الإنجليزية في الصين ، والتي تم تصميمها لطلاب المدارس المتوسطة والثانوية. يمكن تقديم مجموعة البيانات كمجموعات تدريب واختبار لفهم الآلة.
حجم التحميل :
167.97 MiB
حجم مجموعة البيانات :
171.23 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 4934 |
'train' | 87863 |
'validation' | 4،887 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / Race_string_dev
وصف التكوين : Race عبارة عن مجموعة بيانات واسعة النطاق لفهم القراءة. يتم جمع مجموعة البيانات من اختبارات اللغة الإنجليزية في الصين ، والتي تم تصميمها لطلاب المدارس المتوسطة والثانوية. يمكن تقديم مجموعة البيانات كمجموعات تدريب واختبار لفهم الآلة.
حجم التحميل :
167.97 MiB
حجم مجموعة البيانات :
171.23 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 4934 |
'train' | 87863 |
'validation' | 4،887 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / الحبال
وصف التكوين : تختبر مجموعة البيانات هذه قدرة النظام على تطبيق المعرفة من مرور النص إلى حالة جديدة. يتم تقديم فقرة خلفية للنظام تحتوي على علاقة (علاقات) سببية أو نوعية (على سبيل المثال ، "الملقحات الحيوانية تزيد من كفاءة الإخصاب في الأزهار") ، وهي حالة جديدة تستخدم هذه الخلفية ، والأسئلة التي تتطلب التفكير حول تأثيرات العلاقات في فقرة الخلفية في سياق الموقف.
حجم التحميل :
12.91 MiB
حجم مجموعة البيانات :
13.35 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 10924 |
'validation' | 1،688 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / social_iqa
وصف التكوين : هذا معيار واسع النطاق للتفكير المنطقي حول المواقف الاجتماعية. يحتوي تطبيق Social IQa على أسئلة متعددة الخيارات لفحص الذكاء العاطفي والاجتماعي في مجموعة متنوعة من المواقف اليومية. من خلال التعهيد الجماعي ، يتم جمع الأسئلة المنطقية جنبًا إلى جنب مع الإجابات الصحيحة وغير الصحيحة حول التفاعلات الاجتماعية ، وذلك باستخدام إطار عمل جديد يخفف من الآثار الأسلوبية في الإجابات غير الصحيحة عن طريق مطالبة العمال بتقديم الإجابة الصحيحة لسؤال مختلف ولكن ذي صلة.
حجم التحميل :
7.08 MiB
حجم مجموعة البيانات :
8.22 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 33410 |
'validation' | 1954 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{sap-etal-2019-social,
title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
author = "Sap, Maarten and
Rashkin, Hannah and
Chen, Derek and
Le Bras, Ronan and
Choi, Yejin",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1454",
doi = "10.18653/v1/D19-1454",
pages = "4463--4473",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / squad1_1
وصف التكوين : هذه مجموعة بيانات لفهم القراءة تتكون من أسئلة يطرحها العاملون في الحشد على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن جزء من نص من فقرة القراءة المقابلة.
حجم التحميل :
80.62 MiB
حجم مجموعة البيانات :
83.99 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 87514 |
'validation' | 10570 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{rajpurkar-etal-2016-squad,
title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
author = "Rajpurkar, Pranav and
Zhang, Jian and
Lopyrev, Konstantin and
Liang, Percy",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D16-1264",
doi = "10.18653/v1/D16-1264",
pages = "2383--2392",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / فرقة 2
وصف التكوين : تجمع مجموعة البيانات هذه بين مجموعة بيانات ستانفورد الأصلية للإجابة على الأسئلة (SQuAD) مع أسئلة لا يمكن الإجابة عليها مكتوبة بشكل عكسي من قبل عمال الحشود لتبدو مشابهة للأسئلة التي يمكن الإجابة عليها.
حجم التحميل :
116.56 MiB
حجم مجموعة البيانات :
121.43 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 130149 |
'validation' | 11873 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{rajpurkar-etal-2018-know,
title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
author = "Rajpurkar, Pranav and
Jia, Robin and
Liang, Percy",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P18-2124",
doi = "10.18653/v1/P18-2124",
pages = "784--789",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / winogrande_l
وصف التكوين : مجموعة البيانات هذه مستوحاة من تصميم Winograd Schema Challenge الأصلي ، ولكن تم تعديلها لتحسين كل من الحجم والصلابة لمجموعة البيانات. تتكون الخطوات الرئيسية لبناء مجموعة البيانات من (1) إجراء التعهيد الجماعي المصمم بعناية ، متبوعًا بـ (2) تقليل التحيز المنتظم باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات التي يمكن اكتشافها من قبل الإنسان على ارتباطات التضمين التي يمكن اكتشافها آليًا. يتم توفير مجموعات تدريب بأحجام مختلفة. هذه المجموعة تتوافق مع الحجم
l
.حجم التحميل :
1.49 MiB
حجم مجموعة البيانات :
1.83 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 10،234 |
'validation' | 1،267 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / winogrande_m
وصف التكوين : مجموعة البيانات هذه مستوحاة من تصميم Winograd Schema Challenge الأصلي ، ولكن تم تعديلها لتحسين كل من الحجم والصلابة لمجموعة البيانات. تتكون الخطوات الرئيسية لبناء مجموعة البيانات من (1) إجراء التعهيد الجماعي المصمم بعناية ، متبوعًا بـ (2) تقليل التحيز المنتظم باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات التي يمكن اكتشافها من قبل الإنسان على ارتباطات التضمين التي يمكن اكتشافها آليًا. يتم توفير مجموعات تدريب بأحجام مختلفة. هذه المجموعة تتوافق مع الحجم
m
.حجم التحميل :
507.46 KiB
حجم مجموعة البيانات :
623.15 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 2،558 |
'validation' | 1،267 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa / winogrande_s
وصف التكوين : مجموعة البيانات هذه مستوحاة من تصميم Winograd Schema Challenge الأصلي ، ولكن تم تعديلها لتحسين كل من الحجم والصلابة لمجموعة البيانات. تتكون الخطوات الرئيسية لبناء مجموعة البيانات من (1) إجراء التعهيد الجماعي المصمم بعناية ، متبوعًا بـ (2) تقليل التحيز المنتظم باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات التي يمكن اكتشافها من قبل الإنسان على ارتباطات التضمين التي يمكن اكتشافها آليًا. يتم توفير مجموعات تدريب بأحجام مختلفة. هذه المجموعة تتوافق مع حجم
s
.حجم التحميل :
479.24 KiB
حجم مجموعة البيانات :
590.47 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،767 |
'train' | 640 |
'validation' | 1،267 |
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."