विकिहाउ

विवरण :

विकीहाउ ऑनलाइन विकीहाउ ( http://www.wikihow.com/ ) नॉलेज बेस का उपयोग कर एक नया बड़े पैमाने का डाटासेट है।

इसकी दो विशेषताएँ हैं: - टेक्स्ट: विकिहाउ टेक्स्ट्स का उत्तर देता है। - शीर्षक: सारांश के रूप में बोल्ड लाइनें।

दो अलग-अलग संस्करण हैं: - सभी: लेख के रूप में सभी अनुच्छेदों के संयोजन और संदर्भ सारांश के रूप में बोल्ड लाइनें शामिल हैं। - सितंबर: प्रत्येक पैराग्राफ और उसके सारांश से मिलकर।

https://github.com/mahnazkoupaee/WikiHow-Dataset से "wikihowAll.csv" और "wikihowSep.csv" डाउनलोड करें और उन्हें मैन्युअल फ़ोल्डर https://www.tensorflow.org/datasets/api_docs/python/tfds/ में रखें डाउनलोड/डाउनलोड कॉन्फिग ट्रेन/सत्यापन/परीक्षण विभाजन लेखकों द्वारा प्रदान किए जाते हैं। छोटे लेखों (सार लंबाई <0.75 लेख की लंबाई) को हटाने और अतिरिक्त अल्पविरामों को साफ करने के लिए प्रीप्रोसेसिंग लागू की जाती है।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/mahnazkoupaee/WikiHow-Dataset
स्रोत कोड : tfds.summarization.Wikihow
संस्करण :
- 1.2.0 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
डाउनलोड आकार : 5.21 MiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
फाइलों के लिंक https://github.com/mahnazkoupaee/WikiHow-Dataset पर देखे जा सकते हैं। कृपया wikihowAll.csv और wikihowSep.csv दोनों को डाउनलोड करें।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
पर्यवेक्षित कुंजियाँ ( as_supervised दस्तावेज़ देखें): ('text', 'headline')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फ़िग विवरण : सभी अनुच्छेदों के संयोजन को लेख के रूप में और बोल्ड पंक्तियों को संदर्भ सारांश के रूप में उपयोग करें
डेटासेट का आकार : 531.56 MiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	5,577
`'train'`	157,252
`'validation'`	5,599

फ़ीचर संरचना :

FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
शीर्षक	मूलपाठ	डोरी
मूलपाठ	मूलपाठ	डोरी
शीर्षक	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

विकिहोउ/सितंबर

विन्यास विवरण : प्रत्येक पैराग्राफ और उसके सारांश का उपयोग करें।
डेटासेट का आकार : 1.07 GiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	37,800
`'train'`	1,060,732
`'validation'`	37,932

फ़ीचर संरचना :

FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
शीर्षक	मूलपाठ	डोरी
अवलोकन	मूलपाठ	डोरी
सेक्शनलेबल	मूलपाठ	डोरी
मूलपाठ	मूलपाठ	डोरी
शीर्षक	मूलपाठ	डोरी

उदाहरण ( tfds.as_dataframe ):

विकिहाउ संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

wikihow/all (डिफ़ॉल्ट कॉन्फ़िगरेशन)

विकिहोउ/सितंबर

विकिहाउ