- توضیحات :
مجموعه داده خلاصه سازی SummScreen، نسخه بدون نام، بدون نشانه.
تقسیمبندی و فیلتر Train/val/test بر اساس مجموعه داده نهایی نشانهگذاری شده است، اما رونوشتها و خلاصههای ارائهشده بر اساس متن غیرتوکنسازی شده است.
دو ویژگی وجود دارد:
- رونوشت: متن کامل قسمت، هر خط از گفتگو با خطوط جدید جدا شده است
recap: خلاصه یا خلاصه اپیزودها
صفحه اصلی : https://github.com/mingdachen/SummScreen
کد منبع :
tfds.datasets.summscreen.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
841.27 MiB
کلیدهای نظارت شده (به
as_supervised
نظارت شده رجوع کنید):('transcript', 'recap')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (پیکربندی پیش فرض)
توضیحات پیکربندی : ForeverDreaming
حجم مجموعه داده :
132.99 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- ساختار ویژگی :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_شماره | متن | رشته | ||
قسمت_عنوان | متن | رشته | ||
خلاصه کردن | متن | رشته | ||
عنوان_نمایش | متن | رشته | ||
رونوشت | متن | رشته | ||
رونوشت_نویسنده | متن | رشته |
- مثالها ( tfds.as_dataframe ):
summscreen/tms
توضیحات پیکربندی : TVMegaSite
حجم مجموعه داده :
592.53 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1793 |
'train' | 18915 |
'validation' | 1795 |
- ساختار ویژگی :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_خلاصه | متن | رشته | ||
خلاصه کردن | متن | رشته | ||
recap_author | متن | رشته | ||
عنوان_نمایش | متن | رشته | ||
رونوشت | متن | رشته | ||
رونوشت_نویسنده | تانسور | (هیچ یک،) | رشته |
- مثالها ( tfds.as_dataframe ):