- الوصف :
مجموعة بيانات تلخيص SummScreen ، إصدار غير مجهول الهوية وغير مرمز.
تستند عمليات تقسيم وتصفية التدريب / Val / الاختبار إلى مجموعة البيانات الرمزية النهائية ، لكن النصوص والملخصات المقدمة تستند إلى النص غير المنطوق.
هناك نوعان من الميزات:
- نص: نصوص الحلقة كاملة ، كل سطر من الحوار مفصول بأسطر جديدة
تلخيص: ملخصات أو ملخصات الحلقات
الصفحة الرئيسية : https://github.com/mingdachen/SummScreen
كود المصدر :
tfds.datasets.summscreen.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
841.27 MiB
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('transcript', 'recap')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Summscreen / fd (التكوين الافتراضي)
وصف التكوين : ForeverDreaming
حجم مجموعة البيانات :
132.99 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 337 |
'train' | 3،673 |
'validation' | 338 |
- هيكل الميزة :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
episode_number | نص | سلسلة | ||
episode_title | نص | سلسلة | ||
خلاصة | نص | سلسلة | ||
show_title | نص | سلسلة | ||
نسخة طبق الأصل | نص | سلسلة | ||
نسخة مؤلف | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
Summscreen / tms
وصف التكوين : TVMegaSite
حجم مجموعة البيانات :
592.53 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،793 |
'train' | 18،915 |
'validation' | 1795 |
- هيكل الميزة :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الحلقة_ملخص | نص | سلسلة | ||
خلاصة | نص | سلسلة | ||
recap_author | نص | سلسلة | ||
show_title | نص | سلسلة | ||
نسخة طبق الأصل | نص | سلسلة | ||
نسخة مؤلف | موتر | (لا أحد،) | سلسلة |
- أمثلة ( tfds.as_dataframe ):