विकी_ऑटो

  • विवरण :

WikiAuto वाक्य सरलीकरण प्रणालियों को प्रशिक्षित करने के लिए एक संसाधन के रूप में अंग्रेजी विकिपीडिया और सरल अंग्रेजी विकिपीडिया से संरेखित वाक्यों का एक सेट प्रदान करता है। लेखकों ने पहले सरल अंग्रेजी विकिपीडिया के एक उपसमुच्चय में वाक्यों के बीच मैनुअल संरेखण का एक सेट क्राउड-सोर्स किया और अंग्रेजी विकिपीडिया में उनके संबंधित संस्करण (यह manual कॉन्फ़िगरेशन से मेल खाता है), फिर इन संरेखणों की भविष्यवाणी करने के लिए एक तंत्रिका सीआरएफ प्रणाली को प्रशिक्षित किया। तब प्रशिक्षित मॉडल को अंग्रेजी समकक्ष के साथ सरल अंग्रेजी विकिपीडिया के अन्य लेखों पर संरेखित वाक्यों का एक बड़ा कॉर्पस बनाने के लिए लागू किया गया था (यहां auto , auto_acl , auto_full_no_split , और auto_full_with_split कॉन्फ़िगरेशन के अनुरूप)।

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/मैनुअल (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : भीड़ कार्यकर्ताओं द्वारा संरेखित 10K विकिपीडिया वाक्य जोड़े का एक सेट।

  • डाउनलोड आकार : 53.47 MiB

  • डेटासेट का आकार : 76.87 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'dev' 73,249
'test' 118,074
  • फ़ीचर संरचना :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
जीएलईयू-स्कोर टेन्सर फ्लोट64
संरेखण_लेबल क्लासलेबल int64
normal_sentence मूलपाठ डोरी
सामान्य_वाक्य_आईडी मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी
simple_sentence_id मूलपाठ डोरी

wiki_auto/auto_acl

  • Config विवरण : ACL2020 सिस्टम को प्रशिक्षित करने के लिए संरेखित वाक्य जोड़े।

  • डाउनलोड आकार : 112.60 MiB

  • डेटासेट का आकार : 138.83 MiB

  • स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)

  • विभाजन :

विभाजित करना उदाहरण
'full' 488,332
  • फ़ीचर संरचना :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
normal_sentence मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी

wiki_auto/auto_full_no_split

  • कॉन्फिग विवरण : वाक्य विभाजन के बिना सभी स्वचालित रूप से संरेखित वाक्य जोड़े।

  • डाउनलोड आकार : 135.02 MiB

  • डेटासेट का आकार : 166.78 MiB

  • स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)

  • विभाजन :

विभाजित करना उदाहरण
'full' 591,994
  • फ़ीचर संरचना :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
normal_sentence मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी

wiki_auto/auto_full_with_split

  • Config विवरण : वाक्य विभाजन के साथ सभी स्वचालित रूप से संरेखित वाक्य जोड़े।

  • डाउनलोड आकार : 115.09 MiB

  • डेटासेट का आकार : 141.20 MiB

  • स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)

  • विभाजन :

विभाजित करना उदाहरण
'full' 483,801
  • फ़ीचर संरचना :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
normal_sentence मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी

विकि_ऑटो/ऑटो

  • विन्यास विवरण : स्वचालित रूप से संरेखित वाक्य जोड़े का एक बड़ा सेट।

  • डाउनलोड आकार : 2.01 GiB

  • डेटासेट का आकार : 1.76 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'part_1' 125,059
'part_2' 13,036
  • फ़ीचर संरचना :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
example_id मूलपाठ डोरी
सामान्य विशेषताएं डिक्ट
सामान्य/सामान्य_लेख_सामग्री क्रम
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य मूलपाठ डोरी
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य_आईडी मूलपाठ डोरी
सामान्य/सामान्य_लेख_आईडी टेन्सर int32
सामान्य/सामान्य_लेख_शीर्षक मूलपाठ डोरी
सामान्य/सामान्य_लेख_यूआरएल मूलपाठ डोरी
para_alignment क्रम
पैराग्राफ_अलाइनमेंट/नॉर्मल_पैराग्राफ_आईडी मूलपाठ डोरी
पैराग्राफ_अलाइनमेंट/सरल_पैराग्राफ_आईडी मूलपाठ डोरी
वाक्य_संरेखण क्रम
वाक्य_संरेखण/सामान्य_वाक्य_आईडी मूलपाठ डोरी
वाक्य_संरेखण/सरल_वाक्य_आईडी मूलपाठ डोरी
सरल विशेषताएं डिक्ट
सरल/सरल_लेख_सामग्री क्रम
सरल/सरल_लेख_सामग्री/सरल_वाक्य मूलपाठ डोरी
सरल/सरल_लेख_सामग्री/सरल_वाक्य_आईडी मूलपाठ डोरी
सरल/सरल_लेख_आईडी टेन्सर int32
सरल/सरल_लेख_शीर्षक मूलपाठ डोरी
सरल/सरल_लेख_यूआरएल मूलपाठ डोरी