- คำอธิบาย :
ชุดข้อมูล SummScreen Summarization เวอร์ชันที่ไม่ระบุตัวตน เวอร์ชันที่ไม่โทเค็น
การแยก Train/val/test และการกรองจะอิงตามชุดข้อมูลโทเค็นสุดท้าย แต่การถอดเสียงและการสรุปที่มีให้จะอิงตามข้อความที่ไม่ได้โทเค็น
มีสองคุณสมบัติ:
- การถอดเสียง: การถอดเสียงตอนเต็ม บทสนทนาแต่ละบรรทัดคั่นด้วยการขึ้นบรรทัดใหม่
recap: บทสรุปหรือบทสรุปของตอนต่างๆ
หน้าแรก : https://github.com/mingdachen/SummScreen
รหัสแหล่งที่มา :
tfds.datasets.summscreen.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
841.27 MiB
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('transcript', 'recap')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า: ForeverDreaming
ขนาดชุดข้อมูล :
132.99 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_number | ข้อความ | สตริง | ||
ตอนที่_title | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง | ||
show_title | ข้อความ | สตริง | ||
การถอดเสียง | ข้อความ | สตริง | ||
transcript_author | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
หน้าจอสรุป/tms
คำอธิบาย การกำหนดค่า: TVMegaSite
ขนาดชุดข้อมูล :
592.53 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,793 |
'train' | 18,915 |
'validation' | 1,795 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอน_สรุป | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง | ||
recap_author | ข้อความ | สตริง | ||
show_title | ข้อความ | สตริง | ||
การถอดเสียง | ข้อความ | สตริง | ||
transcript_author | เทนเซอร์ | (ไม่มี,) | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):