wiki_auto

  • الوصف :

يوفر WikiAuto مجموعة من الجمل المتوافقة من ويكيبيديا الإنجليزية وويكيبيديا الإنجليزية البسيطة كمورد لتدريب أنظمة تبسيط الجملة. قام المؤلفون أولاً بتجميع مجموعة من المحاذاة اليدوية بين الجمل في مجموعة فرعية من ويكيبيديا الإنجليزية البسيطة والإصدارات المقابلة لها في ويكيبيديا الإنجليزية (وهذا يتوافق مع التكوين manual ) ، ثم دربوا نظام CRF العصبي للتنبؤ بهذه المحاذاة. تم بعد ذلك تطبيق النموذج المدرب على المقالات الأخرى في ويكيبيديا الإنجليزية البسيطة مع نظير إنجليزي لإنشاء مجموعة أكبر من الجمل المتوافقة (المقابلة للتكوينات auto و auto_acl و auto_full_no_split و auto_full_with_split هنا).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto / يدوي (التكوين الافتراضي)

  • وصف التكوين : مجموعة من أزواج جمل 10K Wikipedia محاذاة بواسطة عمال الحشد.

  • حجم التحميل : 53.47 MiB

  • حجم مجموعة البيانات : 76.87 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'dev' 73249
'test' 118.074
  • هيكل الميزة :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
درجة GLEU موتر تعويم 64
alignment_label ClassLabel int64
الجملة العادية نص سلسلة
معرف_رقم_العادي نص سلسلة
جملة بسيطة نص سلسلة
simple_sentence_id نص سلسلة

wiki_auto / auto_acl

  • وصف التكوين : محاذاة أزواج الجمل لتدريب نظام ACL2020.

  • حجم التحميل : 112.60 MiB

  • حجم مجموعة البيانات : 138.83 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (ممتلئًا)

  • الانقسامات :

انشق، مزق أمثلة
'full' 488332
  • هيكل الميزة :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الجملة العادية نص سلسلة
جملة بسيطة نص سلسلة

wiki_auto / auto_full_no_split

  • وصف التكوين : جميع أزواج الجمل المحاذاة تلقائيًا دون تقسيم الجملة.

  • حجم التحميل : 135.02 MiB

  • حجم مجموعة البيانات : 166.78 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (ممتلئًا)

  • الانقسامات :

انشق، مزق أمثلة
'full' 591994
  • هيكل الميزة :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الجملة العادية نص سلسلة
جملة بسيطة نص سلسلة

wiki_auto / auto_full_with_split

  • وصف التكوين : جميع أزواج الجمل المحاذاة تلقائيًا مع تقسيم الجملة.

  • حجم التحميل : 115.09 MiB

  • حجم مجموعة البيانات : 141.20 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (ممتلئًا)

  • الانقسامات :

انشق، مزق أمثلة
'full' 483801
  • هيكل الميزة :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الجملة العادية نص سلسلة
جملة بسيطة نص سلسلة

wiki_auto / تلقائي

  • وصف التكوين : مجموعة كبيرة من أزواج الجمل المحاذاة تلقائيًا.

  • حجم التحميل : 2.01 GiB

  • حجم مجموعة البيانات : 1.76 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'part_1' 125،059
'part_2' 13036
  • هيكل الميزة :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
example_id نص سلسلة
عادي الميزات
عادي / عادي_محتوى_محتوى تسلسل
normal / normal_article_content / normal_sentence نص سلسلة
normal / normal_article_content / normal_sentence_id نص سلسلة
عادي / عادي موتر int32
normal / normal_article_title نص سلسلة
عادي / normal_article_url نص سلسلة
فقرة المحاذاة تسلسل
paragraph_alignment / normal_paragraph_id نص سلسلة
paragraph_alignment / simple_paragraph_id نص سلسلة
محاذاة الجملة تسلسل
الجملة_المحاذاة / العادي_الرصد نص سلسلة
الجملة_المحاذاة / simple_sentence_id نص سلسلة
بسيط الميزات
بسيط / بسيط_محتوى_محتوى تسلسل
simple / simple_article_content / simple_sentence نص سلسلة
simple / simple_article_content / simple_sentence_id نص سلسلة
simple / simple_article_id موتر int32
simple / simple_article_title نص سلسلة
بسيط / simple_article_url نص سلسلة