- الوصف :
ASSET هي مجموعة بيانات لتقييم أنظمة تبسيط الجمل مع تحويلات إعادة كتابة متعددة ، كما هو موضح في "الأصول: مجموعة بيانات لضبط وتقييم نماذج تبسيط الجملة مع تحويلات إعادة كتابة متعددة." تتكون المجموعة من 2000 عملية تحقق و 359 جملة اختبار أصلية تم تبسيط كل منها 10 مرات بواسطة شروح مختلفة. تحتوي المجموعة أيضًا على أحكام بشرية تتعلق بالحفاظ على المعنى والطلاقة والبساطة لمخرجات العديد من أنظمة تبسيط النص التلقائي.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/facebookresearch/asset
كود المصدر :
tfds.datasets.asset.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
3.47 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
الأصول / التبسيط (التكوين الافتراضي)
وصف التكوين : مجموعة من الجمل الأصلية تتماشى مع 10 تبسيطات محتملة لكل منها.
حجم مجموعة البيانات :
2.64 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 359 |
'validation' | 2000 |
- هيكل الميزة :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أصلي | نص | سلسلة | ||
التبسيط | تسلسل (نص) | (لا أحد،) | سلسلة |
- أمثلة ( tfds.as_dataframe ):
الأصول / التصنيفات
وصف التكوين : تصنيفات بشرية لتبسيط النص الناتج تلقائيًا.
حجم مجموعة البيانات :
1.44 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'full' | 4500 |
- هيكل الميزة :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
جانب | ClassLabel | int64 | ||
أصلي | نص | سلسلة | ||
original_sentence_id | موتر | int32 | ||
تقييم | موتر | int32 | ||
تبسيط | نص | سلسلة | ||
worker_id | موتر | int32 |
- أمثلة ( tfds.as_dataframe ):