paws_x_wiki

  • الوصف :

تحتوي مجموعة البيانات هذه على 23659 زوج تقييم PAWS مترجم بشري و 296406 زوجًا تدريبيًا مترجمًا آليًا بست لغات مميزة نوعياً:

  • فرنسي
  • الأسبانية
  • ألمانية
  • صينى
  • اليابانية
  • الكورية

لمزيد من التفاصيل ، راجع الورقة المرفقة: PAWS-X: مجموعة بيانات متعارضة متعددة اللغات لتعريف إعادة الصياغة على https://arxiv.org/abs/1908.11828

على غرار مجموعة بيانات PAWS ، يتم تقسيم الأمثلة إلى أقسام تدريب / تطوير / اختبار. جميع الملفات بصيغة tsv بأربعة أعمدة:

  1. id : معرف فريد لكل زوج.
  2. sentence1 : الجملة الأولى.
  3. sentence2 2: الجملة الثانية.
  4. (noisy_)label : تسمية (صاخبة) لكل زوج.

تحتوي كل تسمية على قيمتين محتملتين: تشير القيمة 0 إلى أن الزوج له معنى مختلف ، بينما يشير الرقم 1 إلى أن الزوج عبارة عن إعادة صياغة.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضع الكلمة المناسبة ClassLabel int64
الجملة 1 نص سلسلة
الجملة 2 نص سلسلة
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (التكوين الافتراضي)

  • وصف التكوين : ترجم إلى de

  • حجم مجموعة البيانات : 15.27 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49380
'validation' 2000

paws_x_wiki / ar

  • وصف التكوين : مترجم إلى اللغة الإنجليزية

  • حجم مجموعة البيانات : 14.59 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49175
'validation' 2000

paws_x_wiki / es

  • وصف التكوين : مترجم إلى es

  • حجم مجموعة البيانات : 15.27 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49401
'validation' 1961

paws_x_wiki / الاب

  • وصف التكوين : مترجم إلى الأب

  • حجم مجموعة البيانات : 15.79 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49399
'validation' 1،988

paws_x_wiki / جا

  • وصف التكوين : ترجم إلى ja

  • حجم مجموعة البيانات : 17.77 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49401
'validation' 2000

paws_x_wiki / كو

  • وصف التكوين : ترجم إلى ko

  • حجم مجموعة البيانات : 16.42 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1999
'train' 49164
'validation' 2000

paws_x_wiki / zh

  • وصف التكوين : ترجم إلى zh

  • حجم مجموعة البيانات : 13.20 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49401
'validation' 2000