- الوصف :
تحتوي مجموعة البيانات هذه على 23659 زوج تقييم PAWS مترجم بشري و 296406 زوجًا تدريبيًا مترجمًا آليًا بست لغات مميزة نوعياً:
- فرنسي
- الأسبانية
- ألمانية
- صينى
- اليابانية
- الكورية
لمزيد من التفاصيل ، راجع الورقة المرفقة: PAWS-X: مجموعة بيانات متعارضة متعددة اللغات لتعريف إعادة الصياغة على https://arxiv.org/abs/1908.11828
على غرار مجموعة بيانات PAWS ، يتم تقسيم الأمثلة إلى أقسام تدريب / تطوير / اختبار. جميع الملفات بصيغة tsv بأربعة أعمدة:
-
id
: معرف فريد لكل زوج. -
sentence1
: الجملة الأولى. -
sentence2
2: الجملة الثانية. -
(noisy_)label
: تسمية (صاخبة) لكل زوج.
تحتوي كل تسمية على قيمتين محتملتين: تشير القيمة 0 إلى أن الزوج له معنى مختلف ، بينما يشير الرقم 1 إلى أن الزوج عبارة عن إعادة صياغة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research-datasets/paws/tree/master/pawsx
شفرة المصدر :
tfds.datasets.paws_x_wiki.Builder
إصدارات :
-
1.0.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
28.88 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
الجملة 1 | نص | سلسلة | ||
الجملة 2 | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki / de (التكوين الافتراضي)
وصف التكوين : ترجم إلى de
حجم مجموعة البيانات :
15.27 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 49380 |
'validation' | 2000 |
- أمثلة ( tfds.as_dataframe ):
paws_x_wiki / ar
وصف التكوين : مترجم إلى اللغة الإنجليزية
حجم مجموعة البيانات :
14.59 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 49175 |
'validation' | 2000 |
- أمثلة ( tfds.as_dataframe ):
paws_x_wiki / es
وصف التكوين : مترجم إلى es
حجم مجموعة البيانات :
15.27 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 49401 |
'validation' | 1961 |
- أمثلة ( tfds.as_dataframe ):
paws_x_wiki / الاب
وصف التكوين : مترجم إلى الأب
حجم مجموعة البيانات :
15.79 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 49399 |
'validation' | 1،988 |
- أمثلة ( tfds.as_dataframe ):
paws_x_wiki / جا
وصف التكوين : ترجم إلى ja
حجم مجموعة البيانات :
17.77 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 49401 |
'validation' | 2000 |
- أمثلة ( tfds.as_dataframe ):
paws_x_wiki / كو
وصف التكوين : ترجم إلى ko
حجم مجموعة البيانات :
16.42 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1999 |
'train' | 49164 |
'validation' | 2000 |
- أمثلة ( tfds.as_dataframe ):
paws_x_wiki / zh
وصف التكوين : ترجم إلى zh
حجم مجموعة البيانات :
13.20 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 49401 |
'validation' | 2000 |
- أمثلة ( tfds.as_dataframe ):