- Deskripsi :
Kumpulan data SummScreen Summarization, versi non-anonim, non-token.
Pemisahan dan pemfilteran kereta/val/tes didasarkan pada kumpulan data akhir yang diberi token, tetapi transkrip dan rekap yang disediakan didasarkan pada teks yang tidak diberi token.
Ada dua fitur:
- transkrip: Transkrip episode penuh, setiap baris dialog dipisahkan oleh baris baru
rekap: Rekap atau ringkasan episode
Beranda : https://github.com/mingdachen/SummScreen
Kode sumber :
tfds.datasets.summscreen.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
841.27 MiB
Kunci yang diawasi (Lihat
as_supervised
doc ):('transcript', 'recap')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (konfigurasi default)
Deskripsi konfigurasi : ForeverDreaming
Ukuran dataset :
132.99 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 337 |
'train' | 3.673 |
'validation' | 338 |
- Struktur fitur :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
nomor_episode | Teks | rangkaian | ||
episode_title | Teks | rangkaian | ||
rekap | Teks | rangkaian | ||
tunjukkan Judul | Teks | rangkaian | ||
salinan | Teks | rangkaian | ||
transcript_author | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
summscreen/tms
Deskripsi konfigurasi : TVMegaSite
Ukuran dataset :
592.53 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.793 |
'train' | 18.915 |
'validation' | 1.795 |
- Struktur fitur :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_summary | Teks | rangkaian | ||
rekap | Teks | rangkaian | ||
rekap_penulis | Teks | rangkaian | ||
tunjukkan Judul | Teks | rangkaian | ||
salinan | Teks | rangkaian | ||
transcript_author | Tensor | (Tidak ada,) | rangkaian |
- Contoh ( tfds.as_dataframe ):