- الوصف :
تفتقر مجموعات بيانات تحديد إعادة الصياغة الحالية إلى أزواج الجمل التي تحتوي على تداخل معجمي مرتفع دون إعادة الصياغة. النماذج المدربة على مثل هذه البيانات تفشل في التمييز بين الأزواج مثل الرحلات الجوية من نيويورك إلى فلوريدا والرحلات الجوية من فلوريدا إلى نيويورك. تحتوي مجموعة البيانات هذه على 108463 من الأزواج التي تم تصنيفها بشريًا و 656 ألفًا من الأزواج ذات العلامات الصاخبة والتي تتميز بأهمية بنية النمذجة والسياق ومعلومات ترتيب الكلمات لمشكلة تحديد إعادة الصياغة.
لمزيد من التفاصيل ، راجع الورقة المصاحبة: PAWS: إعادة صياغة عبارة أعداء من Word Scrambling على https://arxiv.org/abs/1904.01130
تحتوي هذه المجموعة على أزواج تم إنشاؤها من صفحات ويكيبيديا ، وتحتوي على أزواج تم إنشاؤها من كل من طرق تبادل الكلمات والترجمة العكسية. جميع الأزواج لديهم أحكام بشرية في كل من إعادة الصياغة والطلاقة ويتم تقسيمهم إلى أقسام تدريب / تطوير / اختبار.
جميع الملفات بتنسيق tsv بأربعة أعمدة:
-
id
: معرف فريد لكل زوج. -
sentence1
: الجملة الأولى. -
sentence2
2: الجملة الثانية. -
(noisy_)label
: تسمية (صاخبة) لكل زوج.
تحتوي كل تسمية على قيمتين محتملتين: تشير القيمة 0 إلى أن الزوج له معنى مختلف ، بينما يشير الرقم 1 إلى أن الزوج عبارة عن إعادة صياغة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research-datasets/paws
شفرة المصدر :
tfds.datasets.paws_wiki.Builder
إصدارات :
-
1.0.0
: الإصدار الأولي. -
1.1.0
(افتراضي): يضيف تكوينات لمجموعة فرعية مختلفة ويدعم النص الخام.
-
حجم التحميل :
57.47 MiB
هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
الجملة 1 | نص | سلسلة | ||
الجملة 2 | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki / Labeled_final_tokenized (التكوين الافتراضي)
وصف التكوين : المجموعة الفرعية: Labed_final tokenized: True
حجم مجموعة البيانات :
17.96 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 8000 |
'train' | 49401 |
'validation' | 8000 |
- أمثلة ( tfds.as_dataframe ):
paws_wiki / المسمى_final_raw
وصف التكوين : المجموعة الفرعية: Labed_final tokenized: False
حجم مجموعة البيانات :
17.57 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 8000 |
'train' | 49401 |
'validation' | 8000 |
- أمثلة ( tfds.as_dataframe ):
paws_wiki / المسمى_swap_tokenized
وصف التكوين : المجموعة الفرعية: Labeled_swap tokenized: True
حجم مجموعة البيانات :
8.79 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 30397 |
- أمثلة ( tfds.as_dataframe ):
paws_wiki / المسمى_swap_raw
وصف التكوين : المجموعة الفرعية: Labeled_swap tokenized: False
حجم مجموعة البيانات :
8.60 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 30397 |
- أمثلة ( tfds.as_dataframe ):
paws_wiki / uncabeled_final_tokenized
وصف التكوين : المجموعة الفرعية: الرمز المميز غير المسماة: صحيح
حجم مجموعة البيانات :
177.89 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 645652 |
'validation' | 10000 |
- أمثلة ( tfds.as_dataframe ):