- توضیحات :
مجموعه داده جدیدی از 7787 سؤال علمی چندگزینه ای واقعی در سطح پایه مدرسه، که برای تشویق به تحقیق در پاسخگویی پیشرفته به سؤالات جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم میشود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم همروی کلمه به اشتباه پاسخ داده شده است. ما همچنین مجموعهای از بیش از 14 میلیون جمله علمی مرتبط با این کار و پیادهسازی سه مدل پایه عصبی را برای این مجموعه داده گنجاندهایم. ما ARC را به عنوان یک چالش برای جامعه مطرح می کنیم.
در مقایسه با مجموعه داده اصلی، این جملات متنی را که از طریق بازیابی اطلاعات به دست میآیند به همان روش UnifiedQA اضافه میکند (نگاه کنید به: https://arxiv.org/abs/2005.00700 ).
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://allenai.org/data/arc
کد منبع :
tfds.datasets.ai2_arc_with_ir.Builder
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
3.68 MiB
ذخیره خودکار ( اسناد ): بله
ساختار ویژگی :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
کلید پاسخ | ClassLabel | int64 | ||
انتخاب ها | توالی | |||
انتخاب/برچسب | ClassLabel | int64 | ||
انتخاب ها/متن | متن | رشته | ||
شناسه | متن | رشته | ||
پاراگراف | متن | رشته | ||
سوال | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه چالشی شامل 2590 سوال "سخت" (آنهایی که هم روش بازیابی و هم اتفاق نمی توانند به درستی به آنها پاسخ دهند)
حجم مجموعه داده :
3.76 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- مثالها ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
توضیحات پیکربندی : مجموعه ای آسان از 5197 سوال برای چالش ARC.
حجم مجموعه داده :
7.49 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2,376 |
'train' | 2251 |
'validation' | 570 |
- مثالها ( tfds.as_dataframe ):