- विवरण :
विकीहाउ ऑनलाइन विकीहाउ ( http://www.wikihow.com/ ) नॉलेज बेस का उपयोग कर एक नया बड़े पैमाने का डाटासेट है।
इसकी दो विशेषताएँ हैं: - टेक्स्ट: विकिहाउ टेक्स्ट्स का उत्तर देता है। - शीर्षक: सारांश के रूप में बोल्ड लाइनें।
दो अलग-अलग संस्करण हैं: - सभी: लेख के रूप में सभी अनुच्छेदों के संयोजन और संदर्भ सारांश के रूप में बोल्ड लाइनें शामिल हैं। - सितंबर: प्रत्येक पैराग्राफ और उसके सारांश से मिलकर।
https://github.com/mahnazkoupaee/WikiHow-Dataset से "wikihowAll.csv" और "wikihowSep.csv" डाउनलोड करें और उन्हें मैन्युअल फ़ोल्डर https://www.tensorflow.org/datasets/api_docs/python/tfds/ में रखें डाउनलोड/डाउनलोड कॉन्फिग ट्रेन/सत्यापन/परीक्षण विभाजन लेखकों द्वारा प्रदान किए जाते हैं। छोटे लेखों (सार लंबाई <0.75 लेख की लंबाई) को हटाने और अतिरिक्त अल्पविरामों को साफ करने के लिए प्रीप्रोसेसिंग लागू की जाती है।
स्रोत कोड :
tfds.summarization.Wikihow
संस्करण :
-
1.2.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
5.21 MiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
फाइलों के लिंक https://github.com/mahnazkoupaee/WikiHow-Dataset पर देखे जा सकते हैं। कृपया wikihowAll.csv और wikihowSep.csv दोनों को डाउनलोड करें।ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('text', 'headline')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : सभी अनुच्छेदों के संयोजन को लेख के रूप में और बोल्ड पंक्तियों को संदर्भ सारांश के रूप में उपयोग करें
डेटासेट का आकार :
531.56 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- फ़ीचर संरचना :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
शीर्षक | मूलपाठ | डोरी | ||
मूलपाठ | मूलपाठ | डोरी | ||
शीर्षक | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
विकिहोउ/सितंबर
विन्यास विवरण : प्रत्येक पैराग्राफ और उसके सारांश का उपयोग करें।
डेटासेट का आकार :
1.07 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- फ़ीचर संरचना :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
शीर्षक | मूलपाठ | डोरी | ||
अवलोकन | मूलपाठ | डोरी | ||
सेक्शनलेबल | मूलपाठ | डोरी | ||
मूलपाठ | मूलपाठ | डोरी | ||
शीर्षक | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):