- विवरण :
बुकसम: दीर्घ-रूपी वर्णनात्मक सारांश के लिए डेटासेट का संग्रह
यह कार्यान्वयन वर्तमान में केवल पुस्तक और अध्याय सारांशों का समर्थन करता है।
गिटहब: https://github.com/salesforce/booksum
स्रोत कोड :
tfds.datasets.booksum.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:1) https://github.com/salesforce/booksum पर जाएं और चरण 1-3 चलाएं। पूरे
booksum
गिट प्रोजेक्ट को मैनुअल फोल्डर में रखें। 2) अध्यायीकृत पुस्तकें https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip से डाउनलोड करें और मैन्युअल फ़ोल्डर में अनज़िप करें।
मैनुअल फ़ोल्डर में निम्नलिखित निर्देशिकाएँ होनी चाहिए:
- `booksum/`
- `all_chapterized_books/`
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)फ़ीचर संरचना :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
दस्तावेज़ | मूलपाठ | डोरी | ||
सारांश | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('document', 'summary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
बुकसम/पुस्तक (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : पुस्तक-स्तरीय संक्षिप्तीकरण
डेटासेट का आकार :
208.81 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- उदाहरण ( tfds.as_dataframe ):
बुकसम / चैप्टर
Config विवरण : अध्याय-स्तरीय संक्षेपण
डेटासेट का आकार :
216.71 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- उदाहरण ( tfds.as_dataframe ):