- विवरण :
SummScreen सारांश डेटासेट, गैर-अनामीकृत, गैर-टोकन संस्करण।
ट्रेन/वैल/टेस्ट स्प्लिट और फ़िल्टरिंग अंतिम टोकनयुक्त डेटासेट पर आधारित होते हैं, लेकिन प्रदान किए गए ट्रांसक्रिप्ट और रिकैप्स अनटोकेनाइज़्ड टेक्स्ट पर आधारित होते हैं।
दो विशेषताएं हैं:
- प्रतिलेख: पूर्ण एपिसोड प्रतिलेख, संवाद की प्रत्येक पंक्ति को न्यूलाइन द्वारा अलग किया गया
रीकैप: एपिसोड का रीकैप या सारांश
स्रोत कोड :
tfds.datasets.summscreen.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
841.27 MiB
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):('transcript', 'recap')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
समस्क्रीन/एफडी (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : फॉरएवरड्रीमिंग
डेटासेट का आकार :
132.99 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- फ़ीचर संरचना :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
प्रकरण क्रमांक | लेख | डोरी | ||
प्रकरण_शीर्षक | लेख | डोरी | ||
संक्षिप्त | लेख | डोरी | ||
शीर्षक दिखाओ | लेख | डोरी | ||
प्रतिलिपि | लेख | डोरी | ||
transcript_author | लेख | डोरी |
- उदाहरण ( tfds.as_dataframe ):
समस्क्रीन/टीएमएस
कॉन्फ़िग विवरण : TVMegaSite
डेटासेट का आकार :
592.53 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,793 |
'train' | 18,915 |
'validation' | 1,795 |
- फ़ीचर संरचना :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
episode_summary | लेख | डोरी | ||
संक्षिप्त | लेख | डोरी | ||
recap_author | लेख | डोरी | ||
शीर्षक दिखाओ | लेख | डोरी | ||
प्रतिलिपि | लेख | डोरी | ||
transcript_author | टेन्सर | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):