- Descrizione :
SummScreen Set di dati di riepilogo, versione non anonima, non tokenizzata.
Le suddivisioni e i filtri di train/val/test si basano sul set di dati tokenizzato finale, ma le trascrizioni e i riepiloghi forniti si basano sul testo non tokenizzato.
Ci sono due caratteristiche:
- trascrizione: trascrizioni complete dell'episodio, ogni riga di dialogo separata da nuove righe
riepilogo: riassunti o riassunti di episodi
Pagina iniziale : https://github.com/mingdachen/SummScreen
Codice sorgente :
tfds.datasets.summscreen.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
841.27 MiB
Chiavi supervisionate (Vedi
as_supervised
doc ):('transcript', 'recap')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (configurazione predefinita)
Descrizione della configurazione : ForeverDreaming
Dimensione del set di dati:
132.99 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 337 |
'train' | 3.673 |
'validation' | 338 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
numero_episodio | Testo | corda | ||
titolo_episodio | Testo | corda | ||
ricapitolare | Testo | corda | ||
mostra titolo | Testo | corda | ||
trascrizione | Testo | corda | ||
trascrizione_autore | Testo | corda |
- Esempi ( tfds.as_dataframe ):
sumscreen/tms
Descrizione della configurazione : TVMegaSite
Dimensione del set di dati:
592.53 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.793 |
'train' | 18.915 |
'validation' | 1.795 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_sommario | Testo | corda | ||
ricapitolare | Testo | corda | ||
recap_author | Testo | corda | ||
mostra titolo | Testo | corda | ||
trascrizione | Testo | corda | ||
trascrizione_autore | Tensore | (Nessuno,) | corda |
- Esempi ( tfds.as_dataframe ):