- الوصف :
مجموعة بيانات ستانفورد للإجابة على الأسئلة (SQuAD) هي مجموعة بيانات لفهم القراءة ، تتكون من أسئلة يطرحها العاملون في الحشود على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن جزء من النص ، أو امتداد ، من فقرة القراءة المقابلة ، أو السؤال قد يكون غير قابل للإجابة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://rajpurkar.github.io/SQuAD-explorer/
كود المصدر :
tfds.datasets.squad.Builder
إصدارات :
-
3.0.0
(افتراضي): يعمل على إصلاح مشكلة تتعلق بعدد صغير من الأمثلة (19) حيث تكون فترات الإجابة غير محاذاة بسبب إزالة المسافة البيضاء من السياق.
-
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
فرقة / v1.1 (التكوين الافتراضي)
وصف التكوين : الإصدار 1.1.0 من SQUAD
حجم التحميل :
33.51 MiB
حجم مجموعة البيانات :
94.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 87599 |
'validation' | 10570 |
- هيكل الميزة :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الإجابات | تسلسل | |||
الإجابات / answer_start | موتر | int32 | ||
الإجابات / النص | نص | سلسلة | ||
سياق الكلام | نص | سلسلة | ||
هوية شخصية | موتر | سلسلة | ||
سؤال | نص | سلسلة | ||
لقب | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
فرقة / v2.0
وصف التكوين : الإصدار 2.0.0 من SQUAD
حجم التحميل :
44.34 MiB
حجم مجموعة البيانات :
148.54 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 130319 |
'validation' | 11873 |
- هيكل الميزة :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الإجابات | تسلسل | |||
الإجابات / answer_start | موتر | int32 | ||
الإجابات / النص | نص | سلسلة | ||
سياق الكلام | نص | سلسلة | ||
هوية شخصية | موتر | سلسلة | ||
غير ممكن | موتر | منطقي | ||
أجوبة معقولة | تسلسل | |||
plausible_answers / answer_start | موتر | int32 | ||
الجواب_المعقول / النص | نص | سلسلة | ||
سؤال | نص | سلسلة | ||
لقب | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):