écran de somme

Descriptif :

Ensemble de données SummScreen Summarization, version non anonymisée et non tokenisée.

Les fractionnements et le filtrage de train/val/test sont basés sur l'ensemble de données tokenisé final, mais les transcriptions et les récapitulatifs fournis sont basés sur le texte non tokenisé.

Il existe deux fonctionnalités :

transcription : transcriptions complètes des épisodes, chaque ligne de dialogue séparée par des nouvelles lignes
recap : Recaps ou résumés d'épisodes
Page d' accueil : https://github.com/mingdachen/SummScreen
Code source : tfds.datasets.summscreen.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : 841.27 MiB
Clés supervisées (Voir as_supervised doc ): ('transcript', 'recap')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (configuration par défaut)

Description de la configuration : ForeverDreaming
Taille du jeu de données : 132.99 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'test'`	337
`'train'`	3 673
`'validation'`	338

Structure des fonctionnalités :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
numéro_épisode	Texte	chaîne
titre_épisode	Texte	chaîne
résumer	Texte	chaîne
montrer le titre	Texte	chaîne
transcription	Texte	chaîne
transcript_author	Texte	chaîne

Exemples ( tfds.as_dataframe ):

écran de synthèse/tms

Description de la configuration : TVMegaSite
Taille du jeu de données : 592.53 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	1 793
`'train'`	18 915
`'validation'`	1 795

Structure des fonctionnalités :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
résumé_épisode	Texte		chaîne
résumer	Texte		chaîne
recap_author	Texte		chaîne
montrer le titre	Texte		chaîne
transcription	Texte		chaîne
transcript_author	Tenseur	(Aucun,)	chaîne

Exemples ( tfds.as_dataframe ):