- विवरण :
ASSET कई पुनर्लेखन रूपांतरणों के साथ वाक्य सरलीकरण प्रणालियों के मूल्यांकन के लिए एक डेटासेट है, जैसा कि "ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations" में वर्णित है। कॉर्पस 2000 सत्यापन और 359 परीक्षण मूल वाक्यों से बना है जो प्रत्येक को अलग-अलग व्याख्याकारों द्वारा 10 बार सरलीकृत किया गया था। कॉर्पस में कई स्वचालित पाठ सरलीकरण प्रणालियों के आउटपुट के लिए अर्थ संरक्षण, प्रवाह और सरलता के मानवीय निर्णय भी शामिल हैं।
स्रोत कोड :
tfds.datasets.asset.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
3.47 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
संपत्ति/सरलीकरण (डिफ़ॉल्ट कॉन्फ़िगरेशन)
विन्यास विवरण : प्रत्येक के लिए 10 संभावित सरलीकरण के साथ संरेखित मूल वाक्यों का एक सेट।
डेटासेट का आकार :
2.64 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 359 |
'validation' | 2,000 |
- फ़ीचर संरचना :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मूल | मूलपाठ | डोरी | ||
सरलीकरण | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):
संपत्ति / रेटिंग
विन्यास विवरण : स्वचालित रूप से निर्मित पाठ सरलीकरण की मानव रेटिंग।
डेटासेट का आकार :
1.44 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'full' | 4,500 |
- फ़ीचर संरचना :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
पहलू | क्लासलेबल | int64 | ||
मूल | मूलपाठ | डोरी | ||
मूल_वाक्य_आईडी | टेन्सर | int32 | ||
रेटिंग | टेन्सर | int32 | ||
सरलीकरण | मूलपाठ | डोरी | ||
कार्यकर्ता_आईडी | टेन्सर | int32 |
- उदाहरण ( tfds.as_dataframe ):