جمع بندی

  • توضیحات :

مجموعه داده خلاصه سازی SummScreen، نسخه بدون نام، بدون نشانه.

تقسیم‌بندی و فیلتر Train/val/test بر اساس مجموعه داده نهایی نشانه‌گذاری شده است، اما رونوشت‌ها و خلاصه‌های ارائه‌شده بر اساس متن غیرتوکن‌سازی شده است.

دو ویژگی وجود دارد:

  • رونوشت: متن کامل قسمت، هر خط از گفتگو با خطوط جدید جدا شده است
  • recap: خلاصه یا خلاصه اپیزودها

  • صفحه اصلی : https://github.com/mingdachen/SummScreen

  • کد منبع : tfds.datasets.summscreen.Builder

  • نسخه ها :

    • 1.0.0 (پیش فرض): انتشار اولیه.
  • حجم دانلود : 841.27 MiB

  • کلیدهای نظارت شده (به as_supervised نظارت شده رجوع کنید): ('transcript', 'recap')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (پیکربندی پیش فرض)

  • توضیحات پیکربندی : ForeverDreaming

  • حجم مجموعه داده : 132.99 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 337
'train' 3,673
'validation' 338
  • ساختار ویژگی :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_شماره متن رشته
قسمت_عنوان متن رشته
خلاصه کردن متن رشته
عنوان_نمایش متن رشته
رونوشت متن رشته
رونوشت_نویسنده متن رشته

summscreen/tms

  • توضیحات پیکربندی : TVMegaSite

  • حجم مجموعه داده : 592.53 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 1793
'train' 18915
'validation' 1795
  • ساختار ویژگی :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_خلاصه متن رشته
خلاصه کردن متن رشته
recap_author متن رشته
عنوان_نمایش متن رشته
رونوشت متن رشته
رونوشت_نویسنده تانسور (هیچ یک،) رشته