xquad

  • توضیحات :

XQuAD (مجموعه داده پاسخگویی به سؤالات بین زبانی) یک مجموعه داده معیار برای ارزیابی عملکرد پاسخگویی به سؤالات بین زبانی است. مجموعه داده شامل زیرمجموعه ای از 240 پاراگراف و 1190 جفت پرسش و پاسخ از مجموعه توسعه SQuAD v1.1 (راجپورکار و همکاران، 2016) به همراه ترجمه حرفه ای آنها به ده زبان اسپانیایی، آلمانی، یونانی، روسی، ترکی است. ، عربی، ویتنامی، تایلندی، چینی و هندی. در نتیجه، مجموعه داده در 11 زبان کاملاً موازی است. برای اجرای XQuAD در تنظیمات پیش‌فرض صفر، از داده‌های آموزشی و اعتبارسنجی SQuAD v1.1 در اینجا استفاده کنید: https://www.tensorflow.org/datasets/catalog/squad

ما همچنین تقسیم‌بندی‌های «translate-train»، «translate-dev» و «translate-test» را برای هر زبان غیرانگلیسی از XTREME شامل می‌کنیم (Hu et al., 2020). اینها را می توان برای اجرای XQuAD در تنظیمات "translate-train" یا "translate-test" استفاده کرد.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://github.com/deepmind/xquad

  • کد منبع : tfds.question_answering.Xquad

  • نسخه ها :

    • 3.0.0 (پیش‌فرض): مشکل تعدادی از مثال‌ها را برطرف می‌کند که در آن‌ها به دلیل حذف فضای سفید متن، فاصله‌های پاسخ‌ها نادرست است. این تغییر تقریباً 14٪ از نمونه های آزمایشی را تحت تأثیر قرار می دهد.
  • ساختار ویژگی :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پاسخ می دهد توالی
answers/answer_start تانسور int32
پاسخ / متن متن رشته
متن نوشته متن رشته
شناسه تانسور رشته
سوال متن رشته
عنوان متن رشته
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (پیکربندی پیش فرض)

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'ar'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 420.97 MiB

  • حجم مجموعه داده : 134.83 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86787

xquad/de

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'de'، با تقسیم‌های translate-train/translate-dev/translate-test splits از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 127.04 MiB

  • حجم مجموعه داده : 98.80 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82603

xquad/el

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'el'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020) ترجمه شده توسط ماشین.

  • حجم دانلود : 499.40 MiB

  • حجم مجموعه داده : 157.90 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، translate-dev، translate-test)، فقط زمانی که shuffle_files=False (translate-train)

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10100
'translate-test' 1182
'translate-train' 79,946

xquad/es

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'es، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 138.41 MiB

  • حجم مجموعه داده : 104.96 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10566
'translate-test' 1,188
'translate-train' 87,488

xquad/سلام

  • شرح پیکربندی : تقسیم تست XQuAD 'hi'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020) ترجمه شده توسط ماشین.

  • حجم دانلود : 472.23 MiB

  • حجم مجموعه داده : 207.85 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، translate-dev، translate-test)، فقط زمانی که shuffle_files=False (translate-train)

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10536
'translate-test' 1184
'translate-train' 85804

xquad/ru

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'ru'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 513.80 MiB

  • حجم مجموعه داده : 159.38 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، translate-dev، translate-test)، فقط زمانی که shuffle_files=False (translate-train)

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,469
'translate-test' 1190
'translate-train' 84,869

xquad/th

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'th'، با تقسیم‌های translate-train/translate-dev/translate-test splits از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 461.54 MiB

  • حجم مجموعه داده : 199.57 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، translate-dev، translate-test)، فقط زمانی که shuffle_files=False (translate-train)

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/tr

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'tr'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020) ترجمه شده توسط ماشین.

  • حجم دانلود : 151.08 MiB

  • حجم مجموعه داده : 97.56 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,535
'translate-test' 1112
'translate-train' 86511

xquad/vi

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'vi'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 218.09 MiB

  • حجم مجموعه داده : 120.03 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,555
'translate-test' 1178
'translate-train' 87187

xquad/zh

  • شرح پیکربندی : تقسیم آزمایشی XQuAD 'zh'، با تقسیم‌های translate-train/translate-dev/translate-test از XTREME (هو و همکاران، 2020).

  • حجم دانلود : 174.57 MiB

  • حجم مجموعه داده : 80.79 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190
'translate-dev' 10,475
'translate-test' 1186
'translate-train' 85700

xquad/en

  • توضیحات پیکربندی : تقسیم تست XQuAD 'en'.

  • حجم دانلود : 595.10 KiB

  • حجم مجموعه داده : 1.19 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1190