मीडिया_सम

  • विवरण :

इस बड़े पैमाने के मीडिया साक्षात्कार डेटासेट में अमूर्त सारांश के साथ 463.6K प्रतिलेख शामिल हैं, जो साक्षात्कार प्रतिलेखों और एनपीआर और सीएनएन से अवलोकन / विषय विवरण से एकत्र किए गए हैं।

कृपया इस डेटासेट के अपने उपयोग को केवल शोध के उद्देश्य तक सीमित रखें।

और कृपया हमारे पेपर का हवाला दें: MediaSum: डायलॉग समराइज़ेशन के लिए एक बड़े पैमाने पर मीडिया इंटरव्यू डेटासेट

नीति

हमने मीडिया स्रोतों से केवल सार्वजनिक रूप से उपलब्ध प्रतिलेख डेटा का उपयोग किया है और उनके केवल-अनुसंधान-उद्देश्य दिशानिर्देश का पालन करते हैं।

जैसा कि मीडिया और मेहमानों के पक्षपातपूर्ण विचार हो सकते हैं, प्रतिलिपि और सारांश में उन्हें शामिल करने की संभावना होगी। प्रतिलेख और सारांश की सामग्री केवल मीडिया और मेहमानों के विचारों को दर्शाती है, और इसे विवेक के साथ देखा जाना चाहिए।

  • होमपेज : https://github.com/zcgzcgzcg1/MediaSum

  • स्रोत कोड : tfds.datasets.media_sum.Builder

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : Unknown size

  • डेटासेट का आकार : 4.11 GiB

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    मैन्युअल_डीआईआर में फाइलें होनी चाहिए:

    • news_dialogue.json
    • train_val_test_split.json

फ़ाइलों को डेटासेट के GitHub पेज से डाउनलोड और निकाला जा सकता है: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

विभाजित करना उदाहरण
'test' 10,000
'train' 443,596
'val' 10,000
  • फ़ीचर संरचना :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
तारीख मूलपाठ डोरी
पहचान मूलपाठ डोरी
कार्यक्रम मूलपाठ डोरी
वक्ता अनुक्रम (पाठ) (कोई नहीं,) डोरी
सारांश मूलपाठ डोरी
यूआरएल मूलपाठ डोरी
उत्तर अनुक्रम (पाठ) (कोई नहीं,) डोरी
  • उद्धरण :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}