paws_wiki

  • الوصف :

تفتقر مجموعات بيانات تحديد إعادة الصياغة الحالية إلى أزواج الجمل التي تحتوي على تداخل معجمي مرتفع دون إعادة الصياغة. النماذج المدربة على مثل هذه البيانات تفشل في التمييز بين الأزواج مثل الرحلات الجوية من نيويورك إلى فلوريدا والرحلات الجوية من فلوريدا إلى نيويورك. تحتوي مجموعة البيانات هذه على 108463 من الأزواج التي تم تصنيفها بشريًا و 656 ألفًا من الأزواج ذات العلامات الصاخبة والتي تتميز بأهمية بنية النمذجة والسياق ومعلومات ترتيب الكلمات لمشكلة تحديد إعادة الصياغة.

لمزيد من التفاصيل ، راجع الورقة المصاحبة: PAWS: إعادة صياغة عبارة أعداء من Word Scrambling على https://arxiv.org/abs/1904.01130

تحتوي هذه المجموعة على أزواج تم إنشاؤها من صفحات ويكيبيديا ، وتحتوي على أزواج تم إنشاؤها من كل من طرق تبادل الكلمات والترجمة العكسية. جميع الأزواج لديهم أحكام بشرية في كل من إعادة الصياغة والطلاقة ويتم تقسيمهم إلى أقسام تدريب / تطوير / اختبار.

جميع الملفات بتنسيق tsv بأربعة أعمدة:

  1. id : معرف فريد لكل زوج.
  2. sentence1 : الجملة الأولى.
  3. sentence2 2: الجملة الثانية.
  4. (noisy_)label : تسمية (صاخبة) لكل زوج.

تحتوي كل تسمية على قيمتين محتملتين: تشير القيمة 0 إلى أن الزوج له معنى مختلف ، بينما يشير الرقم 1 إلى أن الزوج عبارة عن إعادة صياغة.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضع الكلمة المناسبة ClassLabel int64
الجملة 1 نص سلسلة
الجملة 2 نص سلسلة
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / Labeled_final_tokenized (التكوين الافتراضي)

  • وصف التكوين : المجموعة الفرعية: Labed_final tokenized: True

  • حجم مجموعة البيانات : 17.96 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 8000
'train' 49401
'validation' 8000

paws_wiki / المسمى_final_raw

  • وصف التكوين : المجموعة الفرعية: Labed_final tokenized: False

  • حجم مجموعة البيانات : 17.57 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 8000
'train' 49401
'validation' 8000

paws_wiki / المسمى_swap_tokenized

  • وصف التكوين : المجموعة الفرعية: Labeled_swap tokenized: True

  • حجم مجموعة البيانات : 8.79 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 30397

paws_wiki / المسمى_swap_raw

  • وصف التكوين : المجموعة الفرعية: Labeled_swap tokenized: False

  • حجم مجموعة البيانات : 8.60 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 30397

paws_wiki / uncabeled_final_tokenized

  • وصف التكوين : المجموعة الفرعية: الرمز المميز غير المسماة: صحيح

  • حجم مجموعة البيانات : 177.89 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 645652
'validation' 10000