- الوصف :
XQuAD (مجموعة بيانات الإجابة على الأسئلة متعددة اللغات) هي مجموعة بيانات معيارية لتقييم أداء الإجابة على الأسئلة متعددة اللغات. تتكون مجموعة البيانات من مجموعة فرعية من 240 فقرة و 1190 زوجًا من الأسئلة والأجوبة من مجموعة تطوير SQuAD v1.1 (Rajpurkar et al. ، 2016) جنبًا إلى جنب مع ترجماتهم المهنية إلى عشر لغات: الإسبانية والألمانية واليونانية والروسية والتركية والعربية والفيتنامية والتايلاندية والصينية والهندية. وبالتالي ، فإن مجموعة البيانات متوازية تمامًا عبر 11 لغة. لتشغيل XQuAD في الإعداد الافتراضي للصفر ، استخدم SQuAD v1.1 بيانات التدريب والتحقق من الصحة هنا: https://www.tensorflow.org/datasets/catalog/squad
نقوم أيضًا بتضمين تقسيمات "translate-train" و "translate-dev" و "translate-test" لكل لغة غير إنجليزية من XTREME (Hu et al.، 2020). يمكن استخدام هذه لتشغيل XQuAD في إعدادات "ترجمة-تدريب" أو "ترجمة-اختبار".
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/deepmind/xquad
كود المصدر :
tfds.question_answering.Xquad
إصدارات :
-
3.0.0
(افتراضي): يعمل على إصلاح المشكلة المتعلقة بعدد من الأمثلة حيث تكون فترات الإجابة غير محاذاة بسبب إزالة سياق المساحة البيضاء. يؤثر هذا التغيير على ما يقرب من 14٪ من أمثلة الاختبار.
-
هيكل الميزة :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الإجابات | تسلسل | |||
الإجابات / answer_start | موتر | int32 | ||
الإجابات / النص | نص | سلسلة | ||
سياق الكلام | نص | سلسلة | ||
هوية شخصية | موتر | سلسلة | ||
سؤال | نص | سلسلة | ||
لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad / ar (التكوين الافتراضي)
وصف التكوين : تقسيم اختبار XQuAD 'ar' ، مع تقسيمات اختبار الترجمة المترجمة آليًا / المترجم / المترجم / dev / translate-test من XTREME (Hu et al. ، 2020).
حجم التحميل :
420.97 MiB
حجم مجموعة البيانات :
134.83 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10541 |
'translate-test' | 1،151 |
'translate-train' | 86787 |
- أمثلة ( tfds.as_dataframe ):
xquad / دي
وصف التكوين : تقسيم اختبار XQuAD 'de' ، مع تقسيمات اختبار الترجمة المترجمة آليًا / المترجم / المترجم / dev / translate-test من XTREME (Hu et al. ، 2020).
حجم التحميل :
127.04 MiB
حجم مجموعة البيانات :
98.80 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10371 |
'translate-test' | 1168 |
'translate-train' | 82603 |
- أمثلة ( tfds.as_dataframe ):
xquad / el
وصف التكوين : تقسيم اختبار XQuAD 'el' ، مع تقسيمات الترجمة المترجمة آليًا - القطار / المترجم - dev / المترجم - الاختبار من XTREME (Hu et al. ، 2020).
حجم التحميل :
499.40 MiB
حجم مجموعة البيانات :
157.90 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، ترجمة ، ترجمة ، اختبار) ، فقط عندما يكون
shuffle_files=False
(ترجمة-تدريب)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10100 |
'translate-test' | 1،182 |
'translate-train' | 79،946 |
- أمثلة ( tfds.as_dataframe ):
xquad / es
وصف التكوين : تقسيم اختبار XQuAD ، مع تقسيمات اختبار الترجمة المترجمة آليًا / المترجم / المترجم / التطوير / الترجمة من XTREME (Hu et al. ، 2020).
حجم التحميل :
138.41 MiB
حجم مجموعة البيانات :
104.96 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10566 |
'translate-test' | 1،188 |
'translate-train' | 87488 |
- أمثلة ( tfds.as_dataframe ):
xquad / مرحبا
وصف التكوين : تقسيم اختبار XQuAD 'hi' ، مع تقسيمات الترجمة المترجمة آليًا - القطار / المترجم - dev / المترجم - الاختبار من XTREME (Hu et al. ، 2020).
حجم التحميل :
472.23 MiB
حجم مجموعة البيانات :
207.85 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، ترجمة ، ترجمة ، اختبار) ، فقط عندما يكون
shuffle_files=False
(ترجمة-تدريب)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10536 |
'translate-test' | 1،184 |
'translate-train' | 85804 |
- أمثلة ( tfds.as_dataframe ):
xquad / رو
وصف التكوين : تقسيم اختبار XQuAD 'ru' ، مع تقسيمات الترجمة المترجمة آليًا - القطار / المترجم - dev / الترجمة - الاختبار من XTREME (Hu et al. ، 2020).
حجم التحميل :
513.80 MiB
حجم مجموعة البيانات :
159.38 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، ترجمة ، ترجمة ، اختبار) ، فقط عندما يكون
shuffle_files=False
(ترجمة-تدريب)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10469 |
'translate-test' | 1،190 |
'translate-train' | 84،869 |
- أمثلة ( tfds.as_dataframe ):
xquad / عشر
وصف التكوين : تقسيم اختبار XQuAD 'th' ، مع تقسيمات اختبار الترجمة المترجمة آليًا / المترجم / المترجم / dev / translate-test من XTREME (Hu et al. ، 2020).
حجم التحميل :
461.54 MiB
حجم مجموعة البيانات :
199.57 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، ترجمة ، ترجمة ، اختبار) ، فقط عندما يكون
shuffle_files=False
(ترجمة-تدريب)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10516 |
'translate-test' | 1،157 |
'translate-train' | 85846 |
- أمثلة ( tfds.as_dataframe ):
xquad / tr
وصف التكوين : تقسيم اختبار XQuAD 'tr' ، مع تقسيمات الترجمة المترجمة آليًا - القطار / المترجم - dev / المترجم - الاختبار من XTREME (Hu et al. ، 2020).
حجم التحميل :
151.08 MiB
حجم مجموعة البيانات :
97.56 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10535 |
'translate-test' | 1112 |
'translate-train' | 86.511 |
- أمثلة ( tfds.as_dataframe ):
xquad / السادس
وصف التكوين : تقسيم اختبار XQuAD 'vi' ، مع تقسيمات الترجمة المترجمة آليًا - القطار / المترجم - dev / المترجم - الاختبار من XTREME (Hu et al. ، 2020).
حجم التحميل :
218.09 MiB
حجم مجموعة البيانات :
120.03 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10555 |
'translate-test' | 1،178 |
'translate-train' | 87187 |
- أمثلة ( tfds.as_dataframe ):
xquad / zh
وصف التكوين : تقسيم اختبار XQuAD 'zh' ، مع تقسيمات الترجمة المترجمة آليًا - القطار / المترجم - dev / المترجم - الاختبار من XTREME (Hu et al. ، 2020).
حجم التحميل :
174.57 MiB
حجم مجموعة البيانات :
80.79 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
'translate-dev' | 10،475 |
'translate-test' | 1،186 |
'translate-train' | 85700 |
- أمثلة ( tfds.as_dataframe ):
xquad / en
وصف التكوين : تقسيم اختبار XQuAD 'en'.
حجم التحميل :
595.10 KiB
حجم مجموعة البيانات :
1.19 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،190 |
- أمثلة ( tfds.as_dataframe ):