- توضیحات :
مجموعه NQ حاوی سوالاتی از کاربران واقعی است، و سیستمهای QA را برای خواندن و درک کل مقاله ویکیپدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، میطلبد. گنجاندن سوالات واقعی کاربر، و الزام به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://ai.google.com/research/NaturalQuestions/dataset
کد منبع :
tfds.datasets.natural_questions.Builder
نسخه ها :
-
0.0.2
: بدون یادداشت انتشار. -
0.1.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
41.97 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 307,373 |
'validation' | 7830 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (پیکربندی پیشفرض)
توضیحات پیکربندی : پیکربندی پیش فرض natural_questions
حجم مجموعه داده :
90.26 GiB
ساختار ویژگی :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
حاشیه نویسی | توالی | |||
حاشیه نویسی / شناسه | تانسور | رشته | ||
حاشیه نویسی/long_answer | FeaturesDict | |||
annotations/long_answer/end_byte | تانسور | int64 | ||
annotations/long_answer/end_token | تانسور | int64 | ||
annotations/long_answer/start_byte | تانسور | int64 | ||
annotations/long_answer/start_token | تانسور | int64 | ||
حاشیه نویسی/پاسخ_کوتاه | توالی | |||
حاشیه نویسی/پاسخ_کوتاه/پایان_بایت | تانسور | int64 | ||
حاشیه نویسی/پاسخ_کوتاه/توکن_پایانی | تانسور | int64 | ||
حاشیه نویسی/پاسخ_کوتاه/شروع_بایت | تانسور | int64 | ||
حاشیه نویسی/پاسخ_کوتاه/توکن_شروع | تانسور | int64 | ||
حاشیه نویسی/پاسخ_کوتاه/متن | متن | رشته | ||
حاشیه نویسی/yes_no_answer | ClassLabel | int64 | ||
سند | FeaturesDict | |||
سند/html | متن | رشته | ||
سند/عنوان | متن | رشته | ||
سند/نشانه | توالی | |||
document/tokens/is_html | تانسور | بوول | ||
سند/ژتون/نشانه | متن | رشته | ||
سند/url | متن | رشته | ||
شناسه | تانسور | رشته | ||
سوال | FeaturesDict | |||
سوال/متن | متن | رشته | ||
سوال / نشانه ها | دنباله (تنسور) | (هیچ یک،) | رشته |
- مثالها ( tfds.as_dataframe ):
natural_questions/longt5
توضیحات پیکربندی : natural_questions از پیش پردازش شده مانند معیار longT5
حجم مجموعه داده :
8.91 GiB
ساختار ویژگی :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
all_answers | دنباله (متن) | (هیچ یک،) | رشته | |
پاسخ | متن | رشته | ||
متن نوشته | متن | رشته | ||
شناسه | متن | رشته | ||
سوال | متن | رشته | ||
عنوان | متن | رشته |
- مثالها ( tfds.as_dataframe ):