टीएफडीएस अब क्रोइसैन 🥐 प्रारूप का समर्थन करता है! अधिक जानने के लिए दस्तावेज़ पढ़ें.

इस पेज का अनुवाद Cloud Translation API से किया गया है.

विकी_ऑटो

विवरण :

WikiAuto वाक्य सरलीकरण प्रणालियों को प्रशिक्षित करने के लिए एक संसाधन के रूप में अंग्रेजी विकिपीडिया और सरल अंग्रेजी विकिपीडिया से संरेखित वाक्यों का एक सेट प्रदान करता है। लेखकों ने पहले सरल अंग्रेजी विकिपीडिया के एक उपसमुच्चय में वाक्यों के बीच मैनुअल संरेखण का एक सेट क्राउड-सोर्स किया और अंग्रेजी विकिपीडिया में उनके संबंधित संस्करण (यह manual कॉन्फ़िगरेशन से मेल खाता है), फिर इन संरेखणों की भविष्यवाणी करने के लिए एक तंत्रिका सीआरएफ प्रणाली को प्रशिक्षित किया। तब प्रशिक्षित मॉडल को अंग्रेजी समकक्ष के साथ सरल अंग्रेजी विकिपीडिया के अन्य लेखों पर संरेखित वाक्यों का एक बड़ा कॉर्पस बनाने के लिए लागू किया गया था (यहां auto , auto_acl , auto_full_no_split , और auto_full_with_split कॉन्फ़िगरेशन के अनुरूप)।

होमपेज : https://github.com/chaojiang06/wiki-auto
स्रोत कोड : tfds.text_simplification.wiki_auto.WikiAuto
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/मैनुअल (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फिग विवरण : भीड़ कार्यकर्ताओं द्वारा संरेखित 10K विकिपीडिया वाक्य जोड़े का एक सेट।
डाउनलोड आकार : 53.47 MiB
डेटासेट का आकार : 76.87 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'dev'`	73,249
`'test'`	118,074

फ़ीचर संरचना :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
जीएलईयू-स्कोर	टेन्सर	फ्लोट64
संरेखण_लेबल	क्लासलेबल	int64
normal_sentence	मूलपाठ	डोरी
सामान्य_वाक्य_आईडी	मूलपाठ	डोरी
सरल वाक्य	मूलपाठ	डोरी
simple_sentence_id	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

wiki_auto/auto_acl

Config विवरण : ACL2020 सिस्टम को प्रशिक्षित करने के लिए संरेखित वाक्य जोड़े।
डाउनलोड आकार : 112.60 MiB
डेटासेट का आकार : 138.83 MiB
स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)
विभाजन :

विभाजित करना	उदाहरण
`'full'`	488,332

फ़ीचर संरचना :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
normal_sentence	मूलपाठ	डोरी
सरल वाक्य	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

कॉन्फिग विवरण : वाक्य विभाजन के बिना सभी स्वचालित रूप से संरेखित वाक्य जोड़े।
डाउनलोड आकार : 135.02 MiB
डेटासेट का आकार : 166.78 MiB
स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)
विभाजन :

विभाजित करना	उदाहरण
`'full'`	591,994

फ़ीचर संरचना :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
normal_sentence	मूलपाठ	डोरी
सरल वाक्य	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Config विवरण : वाक्य विभाजन के साथ सभी स्वचालित रूप से संरेखित वाक्य जोड़े।
डाउनलोड आकार : 115.09 MiB
डेटासेट का आकार : 141.20 MiB
स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)
विभाजन :

विभाजित करना	उदाहरण
`'full'`	483,801

फ़ीचर संरचना :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
normal_sentence	मूलपाठ	डोरी
सरल वाक्य	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

विकि_ऑटो/ऑटो

विन्यास विवरण : स्वचालित रूप से संरेखित वाक्य जोड़े का एक बड़ा सेट।
डाउनलोड आकार : 2.01 GiB
डेटासेट का आकार : 1.76 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'part_1'`	125,059
`'part_2'`	13,036

फ़ीचर संरचना :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
example_id	मूलपाठ	डोरी
सामान्य	विशेषताएं डिक्ट
सामान्य/सामान्य_लेख_सामग्री	क्रम
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य	मूलपाठ	डोरी
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य_आईडी	मूलपाठ	डोरी
सामान्य/सामान्य_लेख_आईडी	टेन्सर	int32
सामान्य/सामान्य_लेख_शीर्षक	मूलपाठ	डोरी
सामान्य/सामान्य_लेख_यूआरएल	मूलपाठ	डोरी
para_alignment	क्रम
पैराग्राफ_अलाइनमेंट/नॉर्मल_पैराग्राफ_आईडी	मूलपाठ	डोरी
पैराग्राफ_अलाइनमेंट/सरल_पैराग्राफ_आईडी	मूलपाठ	डोरी
वाक्य_संरेखण	क्रम
वाक्य_संरेखण/सामान्य_वाक्य_आईडी	मूलपाठ	डोरी
वाक्य_संरेखण/सरल_वाक्य_आईडी	मूलपाठ	डोरी
सरल	विशेषताएं डिक्ट
सरल/सरल_लेख_सामग्री	क्रम
सरल/सरल_लेख_सामग्री/सरल_वाक्य	मूलपाठ	डोरी
सरल/सरल_लेख_सामग्री/सरल_वाक्य_आईडी	मूलपाठ	डोरी
सरल/सरल_लेख_आईडी	टेन्सर	int32
सरल/सरल_लेख_शीर्षक	मूलपाठ	डोरी
सरल/सरल_लेख_यूआरएल	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

विकी_ऑटो संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.