- विवरण :
NEWSROOM संक्षिप्तीकरण प्रणालियों के प्रशिक्षण और मूल्यांकन के लिए एक बड़ा डेटासेट है। इसमें 38 प्रमुख प्रकाशनों के समाचार कक्षों में लेखकों और संपादकों द्वारा लिखे गए 1.3 मिलियन लेख और सारांश शामिल हैं।
डेटासेट सुविधाओं में शामिल हैं:
- पाठ: इनपुट समाचार पाठ।
- सारांश: समाचार के लिए सारांश।
और अतिरिक्त विशेषताएं:
- शीर्षक: समाचार शीर्षक।
- url: समाचार का url।
- दिनांक: लेख की तिथि।
- घनत्व: निष्कर्षण घनत्व।
- कवरेज: एक्स्ट्रेक्टिव कवरेज।
- संपीड़न: संपीड़न अनुपात।
- घनत्व_बिन: निम्न, मध्यम, उच्च।
- cover_bin: निकालने वाला, सारगर्भित।
- कंप्रेशन_बिन: निम्न, मध्यम, उच्च।
यह डेटासेट अनुरोधों पर डाउनलोड किया जा सकता है। सभी सामग्री "train.jsonl, dev.jsonl, test.jsonl" को tfds फ़ोल्डर में अनज़िप करें।
होमपेज : https://summari.es
स्रोत कोड :
tfds.datasets.newsroom.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown size
डेटासेट का आकार :
5.13 GiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
आपको https://summari.es/download/ से डेटासेट डाउनलोड करना चाहिए। वेबपेज को पंजीकरण की आवश्यकता है। डाउनलोड करने के बाद, कृपया dev.jsonl, test.jsonl और train.jsonl फ़ाइलों को मैन्युअल_डीआईआर में डालें।ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- फ़ीचर संरचना :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
COMPRESSION | टेन्सर | फ्लोट32 | ||
कंप्रेशन_बिन | मूलपाठ | डोरी | ||
कवरेज | टेन्सर | फ्लोट32 | ||
cover_bin | मूलपाठ | डोरी | ||
तारीख | मूलपाठ | डोरी | ||
घनत्व | टेन्सर | फ्लोट32 | ||
Density_bin | मूलपाठ | डोरी | ||
सारांश | मूलपाठ | डोरी | ||
मूलपाठ | मूलपाठ | डोरी | ||
शीर्षक | मूलपाठ | डोरी | ||
यूआरएल | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('text', 'summary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}