cnn_दैनिक मेल

  • विवरण :

CNN/DailyMail गैर-अनामीकृत सारांशीकरण डेटासेट।

इसकी दो विशेषताएँ हैं: - लेख: समाचार लेख का पाठ, जिसे सारांशित करने के लिए दस्तावेज़ के रूप में उपयोग किया जाता है - हाइलाइट्स: प्रत्येक हाइलाइट के साथ और उसके आस-पास हाइलाइट्स का सम्मिलित पाठ, जो लक्ष्य सारांश है

  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://github.com/abisee/cnn-dailymail

  • स्रोत कोड : tfds.summarization.CnnDailymail

  • संस्करण :

    • 1.0.0 : नया स्प्लिट एपीआई ( https://tensorflow.org/datasets/splits )
    • 2.0.0 : लक्ष्य वाक्यों को नई पंक्ति से अलग करें। (न्यूलाइन विभाजकों का अनुमान लगाने वाले मॉडल से सारांश-स्तर ROUGE का उपयोग करके मूल्यांकन करना आसान हो जाता है।)

    • 3.0.0 : आवरण संस्करण का उपयोग करना।

    • 3.1.0 : बिल्डर कॉन्फिग को हटाया गया

    • 3.2.0 : अतिरिक्त वाक्य अवधि से पहले अतिरिक्त स्थान हटा दें। इससे ROUGE स्कोर प्रभावित नहीं होना चाहिए क्योंकि विराम चिह्न हटा दिया गया है।

    • 3.3.0 : प्रकाशक सुविधा जोड़ें।

    • 3.4.0 (डिफ़ॉल्ट): आईडी सुविधा जोड़ें।

  • डाउनलोड आकार : 558.32 MiB

  • डेटासेट का आकार : 1.29 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 11,490
'train' 287,113
'validation' 13,368
  • फ़ीचर संरचना :
FeaturesDict({
    'article': Text(shape=(), dtype=string),
    'highlights': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'publisher': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेख मूलपाठ डोरी
हाइलाइट मूलपाठ डोरी
पहचान मूलपाठ डोरी
प्रकाशक मूलपाठ डोरी
  • उद्धरण :
@article{DBLP:journals/corr/SeeLM17,
  author    = {Abigail See and
               Peter J. Liu and
               Christopher D. Manning},
  title     = {Get To The Point: Summarization with Pointer-Generator Networks},
  journal   = {CoRR},
  volume    = {abs/1704.04368},
  year      = {2017},
  url       = {http://arxiv.org/abs/1704.04368},
  archivePrefix = {arXiv},
  eprint    = {1704.04368},
  timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{hermann2015teaching,
  title={Teaching machines to read and comprehend},
  author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
  booktitle={Advances in neural information processing systems},
  pages={1693--1701},
  year={2015}
}