- विवरण :
इस बड़े पैमाने के मीडिया साक्षात्कार डेटासेट में अमूर्त सारांश के साथ 463.6K प्रतिलेख शामिल हैं, जो साक्षात्कार प्रतिलेखों और एनपीआर और सीएनएन से अवलोकन / विषय विवरण से एकत्र किए गए हैं।
कृपया इस डेटासेट के अपने उपयोग को केवल शोध के उद्देश्य तक सीमित रखें।
और कृपया हमारे पेपर का हवाला दें: MediaSum: डायलॉग समराइज़ेशन के लिए एक बड़े पैमाने पर मीडिया इंटरव्यू डेटासेट
नीति
हमने मीडिया स्रोतों से केवल सार्वजनिक रूप से उपलब्ध प्रतिलेख डेटा का उपयोग किया है और उनके केवल-अनुसंधान-उद्देश्य दिशानिर्देश का पालन करते हैं।
जैसा कि मीडिया और मेहमानों के पक्षपातपूर्ण विचार हो सकते हैं, प्रतिलिपि और सारांश में उन्हें शामिल करने की संभावना होगी। प्रतिलेख और सारांश की सामग्री केवल मीडिया और मेहमानों के विचारों को दर्शाती है, और इसे विवेक के साथ देखा जाना चाहिए।
स्रोत कोड :
tfds.datasets.media_sum.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown size
डेटासेट का आकार :
4.11 GiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
मैन्युअल_डीआईआर में फाइलें होनी चाहिए:- news_dialogue.json
- train_val_test_split.json
फ़ाइलों को डेटासेट के GitHub पेज से डाउनलोड और निकाला जा सकता है: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- फ़ीचर संरचना :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
तारीख | मूलपाठ | डोरी | ||
पहचान | मूलपाठ | डोरी | ||
कार्यक्रम | मूलपाठ | डोरी | ||
वक्ता | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
सारांश | मूलपाठ | डोरी | ||
यूआरएल | मूलपाठ | डोरी | ||
उत्तर | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('utt', 'summary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}