سوالات_طبیعی

توضیحات :

مجموعه NQ حاوی سوالاتی از کاربران واقعی است، و سیستم‌های QA را برای خواندن و درک کل مقاله ویکی‌پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، می‌طلبد. گنجاندن سوالات واقعی کاربر، و الزام به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://ai.google.com/research/NaturalQuestions/dataset
کد منبع : tfds.datasets.natural_questions.Builder
نسخه ها :
- 0.0.2 : بدون یادداشت انتشار.
- 0.1.0 (پیش فرض): بدون یادداشت انتشار.
حجم دانلود : 41.97 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	307,373
`'validation'`	7830

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (پیکربندی پیش‌فرض)

توضیحات پیکربندی : پیکربندی پیش فرض natural_questions
حجم مجموعه داده : 90.26 GiB
ساختار ویژگی :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
حاشیه نویسی	توالی
حاشیه نویسی / شناسه	تانسور		رشته
حاشیه نویسی/long_answer	FeaturesDict
annotations/long_answer/end_byte	تانسور		int64
annotations/long_answer/end_token	تانسور		int64
annotations/long_answer/start_byte	تانسور		int64
annotations/long_answer/start_token	تانسور		int64
حاشیه نویسی/پاسخ_کوتاه	توالی
حاشیه نویسی/پاسخ_کوتاه/پایان_بایت	تانسور		int64
حاشیه نویسی/پاسخ_کوتاه/توکن_پایانی	تانسور		int64
حاشیه نویسی/پاسخ_کوتاه/شروع_بایت	تانسور		int64
حاشیه نویسی/پاسخ_کوتاه/توکن_شروع	تانسور		int64
حاشیه نویسی/پاسخ_کوتاه/متن	متن		رشته
حاشیه نویسی/yes_no_answer	ClassLabel		int64
سند	FeaturesDict
سند/html	متن		رشته
سند/عنوان	متن		رشته
سند/نشانه	توالی
document/tokens/is_html	تانسور		بوول
سند/ژتون/نشانه	متن		رشته
سند/url	متن		رشته
شناسه	تانسور		رشته
سوال	FeaturesDict
سوال/متن	متن		رشته
سوال / نشانه ها	دنباله (تنسور)	(هیچ یک،)	رشته

مثال‌ها ( tfds.as_dataframe ):

natural_questions/longt5

توضیحات پیکربندی : natural_questions از پیش پردازش شده مانند معیار longT5
حجم مجموعه داده : 8.91 GiB
ساختار ویژگی :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
all_answers	دنباله (متن)	(هیچ یک،)	رشته
پاسخ	متن		رشته
متن نوشته	متن		رشته
شناسه	متن		رشته
سوال	متن		رشته
عنوان	متن		رشته

مثال‌ها ( tfds.as_dataframe ):