विकिहाउ

  • विवरण :

विकीहाउ ऑनलाइन विकीहाउ ( http://www.wikihow.com/ ) नॉलेज बेस का उपयोग कर एक नया बड़े पैमाने का डाटासेट है।

इसकी दो विशेषताएँ हैं: - टेक्स्ट: विकिहाउ टेक्स्ट्स का उत्तर देता है। - शीर्षक: सारांश के रूप में बोल्ड लाइनें।

दो अलग-अलग संस्करण हैं: - सभी: लेख के रूप में सभी अनुच्छेदों के संयोजन और संदर्भ सारांश के रूप में बोल्ड लाइनें शामिल हैं। - सितंबर: प्रत्येक पैराग्राफ और उसके सारांश से मिलकर।

https://github.com/mahnazkoupaee/WikiHow-Dataset से "wikihowAll.csv" और "wikihowSep.csv" डाउनलोड करें और उन्हें मैन्युअल फ़ोल्डर https://www.tensorflow.org/datasets/api_docs/python/tfds/ में रखें डाउनलोड/डाउनलोड कॉन्फिग ट्रेन/सत्यापन/परीक्षण विभाजन लेखकों द्वारा प्रदान किए जाते हैं। छोटे लेखों (सार लंबाई <0.75 लेख की लंबाई) को हटाने और अतिरिक्त अल्पविरामों को साफ करने के लिए प्रीप्रोसेसिंग लागू की जाती है।

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : सभी अनुच्छेदों के संयोजन को लेख के रूप में और बोल्ड पंक्तियों को संदर्भ सारांश के रूप में उपयोग करें

  • डेटासेट का आकार : 531.56 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,577
'train' 157,252
'validation' 5,599
  • फ़ीचर संरचना :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
शीर्षक मूलपाठ डोरी
मूलपाठ मूलपाठ डोरी
शीर्षक मूलपाठ डोरी

विकिहोउ/सितंबर

  • विन्यास विवरण : प्रत्येक पैराग्राफ और उसके सारांश का उपयोग करें।

  • डेटासेट का आकार : 1.07 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • फ़ीचर संरचना :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
शीर्षक मूलपाठ डोरी
अवलोकन मूलपाठ डोरी
सेक्शनलेबल मूलपाठ डोरी
मूलपाठ मूलपाठ डोरी
शीर्षक मूलपाठ डोरी