- الوصف :
يوفر WikiAuto مجموعة من الجمل المتوافقة من ويكيبيديا الإنجليزية وويكيبيديا الإنجليزية البسيطة كمورد لتدريب أنظمة تبسيط الجملة. قام المؤلفون أولاً بتجميع مجموعة من المحاذاة اليدوية بين الجمل في مجموعة فرعية من ويكيبيديا الإنجليزية البسيطة والإصدارات المقابلة لها في ويكيبيديا الإنجليزية (وهذا يتوافق مع التكوين manual
) ، ثم دربوا نظام CRF العصبي للتنبؤ بهذه المحاذاة. تم بعد ذلك تطبيق النموذج المدرب على المقالات الأخرى في ويكيبيديا الإنجليزية البسيطة مع نظير إنجليزي لإنشاء مجموعة أكبر من الجمل المتوافقة (المقابلة للتكوينات auto
و auto_acl
و auto_full_no_split
و auto_full_with_split
هنا).
الصفحة الرئيسية https://github.com/chaojiang06/wiki-auto
كود المصدر :
tfds.text_simplification.wiki_auto.WikiAuto
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto / يدوي (التكوين الافتراضي)
وصف التكوين : مجموعة من أزواج جمل 10K Wikipedia محاذاة بواسطة عمال الحشد.
حجم التحميل :
53.47 MiB
حجم مجموعة البيانات :
76.87 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 73249 |
'test' | 118.074 |
- هيكل الميزة :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
درجة GLEU | موتر | تعويم 64 | ||
alignment_label | ClassLabel | int64 | ||
الجملة العادية | نص | سلسلة | ||
معرف_رقم_العادي | نص | سلسلة | ||
جملة بسيطة | نص | سلسلة | ||
simple_sentence_id | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
wiki_auto / auto_acl
وصف التكوين : محاذاة أزواج الجمل لتدريب نظام ACL2020.
حجم التحميل :
112.60 MiB
حجم مجموعة البيانات :
138.83 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False
(ممتلئًا)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'full' | 488332 |
- هيكل الميزة :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الجملة العادية | نص | سلسلة | ||
جملة بسيطة | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
wiki_auto / auto_full_no_split
وصف التكوين : جميع أزواج الجمل المحاذاة تلقائيًا دون تقسيم الجملة.
حجم التحميل :
135.02 MiB
حجم مجموعة البيانات :
166.78 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False
(ممتلئًا)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'full' | 591994 |
- هيكل الميزة :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الجملة العادية | نص | سلسلة | ||
جملة بسيطة | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
wiki_auto / auto_full_with_split
وصف التكوين : جميع أزواج الجمل المحاذاة تلقائيًا مع تقسيم الجملة.
حجم التحميل :
115.09 MiB
حجم مجموعة البيانات :
141.20 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False
(ممتلئًا)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'full' | 483801 |
- هيكل الميزة :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الجملة العادية | نص | سلسلة | ||
جملة بسيطة | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
wiki_auto / تلقائي
وصف التكوين : مجموعة كبيرة من أزواج الجمل المحاذاة تلقائيًا.
حجم التحميل :
2.01 GiB
حجم مجموعة البيانات :
1.76 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'part_1' | 125،059 |
'part_2' | 13036 |
- هيكل الميزة :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
example_id | نص | سلسلة | ||
عادي | الميزات | |||
عادي / عادي_محتوى_محتوى | تسلسل | |||
normal / normal_article_content / normal_sentence | نص | سلسلة | ||
normal / normal_article_content / normal_sentence_id | نص | سلسلة | ||
عادي / عادي | موتر | int32 | ||
normal / normal_article_title | نص | سلسلة | ||
عادي / normal_article_url | نص | سلسلة | ||
فقرة المحاذاة | تسلسل | |||
paragraph_alignment / normal_paragraph_id | نص | سلسلة | ||
paragraph_alignment / simple_paragraph_id | نص | سلسلة | ||
محاذاة الجملة | تسلسل | |||
الجملة_المحاذاة / العادي_الرصد | نص | سلسلة | ||
الجملة_المحاذاة / simple_sentence_id | نص | سلسلة | ||
بسيط | الميزات | |||
بسيط / بسيط_محتوى_محتوى | تسلسل | |||
simple / simple_article_content / simple_sentence | نص | سلسلة | ||
simple / simple_article_content / simple_sentence_id | نص | سلسلة | ||
simple / simple_article_id | موتر | int32 | ||
simple / simple_article_title | نص | سلسلة | ||
بسيط / simple_article_url | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):