- Descriptif :
Ensemble de données SummScreen Summarization, version non anonymisée et non tokenisée.
Les fractionnements et le filtrage de train/val/test sont basés sur l'ensemble de données tokenisé final, mais les transcriptions et les récapitulatifs fournis sont basés sur le texte non tokenisé.
Il existe deux fonctionnalités :
- transcription : transcriptions complètes des épisodes, chaque ligne de dialogue séparée par des nouvelles lignes
recap : Recaps ou résumés d'épisodes
Page d' accueil : https://github.com/mingdachen/SummScreen
Code source :
tfds.datasets.summscreen.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
841.27 MiB
Clés supervisées (Voir
as_supervised
doc ):('transcript', 'recap')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (configuration par défaut)
Description de la configuration : ForeverDreaming
Taille du jeu de données :
132.99 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 337 |
'train' | 3 673 |
'validation' | 338 |
- Structure des fonctionnalités :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
numéro_épisode | Texte | chaîne | ||
titre_épisode | Texte | chaîne | ||
résumer | Texte | chaîne | ||
montrer le titre | Texte | chaîne | ||
transcription | Texte | chaîne | ||
transcript_author | Texte | chaîne |
- Exemples ( tfds.as_dataframe ):
écran de synthèse/tms
Description de la configuration : TVMegaSite
Taille du jeu de données :
592.53 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 793 |
'train' | 18 915 |
'validation' | 1 795 |
- Structure des fonctionnalités :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
résumé_épisode | Texte | chaîne | ||
résumer | Texte | chaîne | ||
recap_author | Texte | chaîne | ||
montrer le titre | Texte | chaîne | ||
transcription | Texte | chaîne | ||
transcript_author | Tenseur | (Aucun,) | chaîne |
- Exemples ( tfds.as_dataframe ):