- विवरण :
WikiAuto वाक्य सरलीकरण प्रणालियों को प्रशिक्षित करने के लिए एक संसाधन के रूप में अंग्रेजी विकिपीडिया और सरल अंग्रेजी विकिपीडिया से संरेखित वाक्यों का एक सेट प्रदान करता है। लेखकों ने पहले सरल अंग्रेजी विकिपीडिया के एक उपसमुच्चय में वाक्यों के बीच मैनुअल संरेखण का एक सेट क्राउड-सोर्स किया और अंग्रेजी विकिपीडिया में उनके संबंधित संस्करण (यह manual
कॉन्फ़िगरेशन से मेल खाता है), फिर इन संरेखणों की भविष्यवाणी करने के लिए एक तंत्रिका सीआरएफ प्रणाली को प्रशिक्षित किया। तब प्रशिक्षित मॉडल को अंग्रेजी समकक्ष के साथ सरल अंग्रेजी विकिपीडिया के अन्य लेखों पर संरेखित वाक्यों का एक बड़ा कॉर्पस बनाने के लिए लागू किया गया था (यहां auto
, auto_acl
, auto_full_no_split
, और auto_full_with_split
कॉन्फ़िगरेशन के अनुरूप)।
स्रोत कोड :
tfds.text_simplification.wiki_auto.WikiAuto
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/मैनुअल (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : भीड़ कार्यकर्ताओं द्वारा संरेखित 10K विकिपीडिया वाक्य जोड़े का एक सेट।
डाउनलोड आकार :
53.47 MiB
डेटासेट का आकार :
76.87 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- फ़ीचर संरचना :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
जीएलईयू-स्कोर | टेन्सर | फ्लोट64 | ||
संरेखण_लेबल | क्लासलेबल | int64 | ||
normal_sentence | मूलपाठ | डोरी | ||
सामान्य_वाक्य_आईडी | मूलपाठ | डोरी | ||
सरल वाक्य | मूलपाठ | डोरी | ||
simple_sentence_id | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
wiki_auto/auto_acl
Config विवरण : ACL2020 सिस्टम को प्रशिक्षित करने के लिए संरेखित वाक्य जोड़े।
डाउनलोड आकार :
112.60 MiB
डेटासेट का आकार :
138.83 MiB
स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(पूर्ण)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'full' | 488,332 |
- फ़ीचर संरचना :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
normal_sentence | मूलपाठ | डोरी | ||
सरल वाक्य | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
कॉन्फिग विवरण : वाक्य विभाजन के बिना सभी स्वचालित रूप से संरेखित वाक्य जोड़े।
डाउनलोड आकार :
135.02 MiB
डेटासेट का आकार :
166.78 MiB
स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(पूर्ण)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'full' | 591,994 |
- फ़ीचर संरचना :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
normal_sentence | मूलपाठ | डोरी | ||
सरल वाक्य | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Config विवरण : वाक्य विभाजन के साथ सभी स्वचालित रूप से संरेखित वाक्य जोड़े।
डाउनलोड आकार :
115.09 MiB
डेटासेट का आकार :
141.20 MiB
स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(पूर्ण)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'full' | 483,801 |
- फ़ीचर संरचना :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
normal_sentence | मूलपाठ | डोरी | ||
सरल वाक्य | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
विकि_ऑटो/ऑटो
विन्यास विवरण : स्वचालित रूप से संरेखित वाक्य जोड़े का एक बड़ा सेट।
डाउनलोड आकार :
2.01 GiB
डेटासेट का आकार :
1.76 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- फ़ीचर संरचना :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
example_id | मूलपाठ | डोरी | ||
सामान्य | विशेषताएं डिक्ट | |||
सामान्य/सामान्य_लेख_सामग्री | क्रम | |||
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य | मूलपाठ | डोरी | ||
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य_आईडी | मूलपाठ | डोरी | ||
सामान्य/सामान्य_लेख_आईडी | टेन्सर | int32 | ||
सामान्य/सामान्य_लेख_शीर्षक | मूलपाठ | डोरी | ||
सामान्य/सामान्य_लेख_यूआरएल | मूलपाठ | डोरी | ||
para_alignment | क्रम | |||
पैराग्राफ_अलाइनमेंट/नॉर्मल_पैराग्राफ_आईडी | मूलपाठ | डोरी | ||
पैराग्राफ_अलाइनमेंट/सरल_पैराग्राफ_आईडी | मूलपाठ | डोरी | ||
वाक्य_संरेखण | क्रम | |||
वाक्य_संरेखण/सामान्य_वाक्य_आईडी | मूलपाठ | डोरी | ||
वाक्य_संरेखण/सरल_वाक्य_आईडी | मूलपाठ | डोरी | ||
सरल | विशेषताएं डिक्ट | |||
सरल/सरल_लेख_सामग्री | क्रम | |||
सरल/सरल_लेख_सामग्री/सरल_वाक्य | मूलपाठ | डोरी | ||
सरल/सरल_लेख_सामग्री/सरल_वाक्य_आईडी | मूलपाठ | डोरी | ||
सरल/सरल_लेख_आईडी | टेन्सर | int32 | ||
सरल/सरल_लेख_शीर्षक | मूलपाठ | डोरी | ||
सरल/सरल_लेख_यूआरएल | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):