หน้าจอสรุป

คำอธิบาย :

ชุดข้อมูล SummScreen Summarization เวอร์ชันที่ไม่ระบุตัวตน เวอร์ชันที่ไม่โทเค็น

การแยก Train/val/test และการกรองจะอิงตามชุดข้อมูลโทเค็นสุดท้าย แต่การถอดเสียงและการสรุปที่มีให้จะอิงตามข้อความที่ไม่ได้โทเค็น

มีสองคุณสมบัติ:

การถอดเสียง: การถอดเสียงตอนเต็ม บทสนทนาแต่ละบรรทัดคั่นด้วยการขึ้นบรรทัดใหม่
recap: บทสรุปหรือบทสรุปของตอนต่างๆ
หน้าแรก : https://github.com/mingdachen/SummScreen
รหัสแหล่งที่มา : tfds.datasets.summscreen.Builder
รุ่น :
- 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
ขนาดการดาวน์โหลด : 841.27 MiB
คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('transcript', 'recap')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (การกำหนดค่าเริ่มต้น)

คำอธิบาย การกำหนดค่า: ForeverDreaming
ขนาดชุดข้อมูล : 132.99 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'test'`	337
`'train'`	3,673
`'validation'`	338

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
ตอนที่_number	ข้อความ	สตริง
ตอนที่_title	ข้อความ	สตริง
สรุป	ข้อความ	สตริง
show_title	ข้อความ	สตริง
การถอดเสียง	ข้อความ	สตริง
transcript_author	ข้อความ	สตริง

ตัวอย่าง ( tfds.as_dataframe ):

หน้าจอสรุป/tms

คำอธิบาย การกำหนดค่า: TVMegaSite
ขนาดชุดข้อมูล : 592.53 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :

แยก	ตัวอย่าง
`'test'`	1,793
`'train'`	18,915
`'validation'`	1,795

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ตอน_สรุป	ข้อความ		สตริง
สรุป	ข้อความ		สตริง
recap_author	ข้อความ		สตริง
show_title	ข้อความ		สตริง
การถอดเสียง	ข้อความ		สตริง
transcript_author	เทนเซอร์	(ไม่มี,)	สตริง

ตัวอย่าง ( tfds.as_dataframe ):