écran de somme

  • Descriptif :

Ensemble de données SummScreen Summarization, version non anonymisée et non tokenisée.

Les fractionnements et le filtrage de train/val/test sont basés sur l'ensemble de données tokenisé final, mais les transcriptions et les récapitulatifs fournis sont basés sur le texte non tokenisé.

Il existe deux fonctionnalités :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (configuration par défaut)

  • Description de la configuration : ForeverDreaming

  • Taille du jeu de données : 132.99 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 337
'train' 3 673
'validation' 338
  • Structure des fonctionnalités :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
numéro_épisode Texte chaîne
titre_épisode Texte chaîne
résumer Texte chaîne
montrer le titre Texte chaîne
transcription Texte chaîne
transcript_author Texte chaîne

écran de synthèse/tms

  • Description de la configuration : TVMegaSite

  • Taille du jeu de données : 592.53 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 1 793
'train' 18 915
'validation' 1 795
  • Structure des fonctionnalités :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
résumé_épisode Texte chaîne
résumer Texte chaîne
recap_author Texte chaîne
montrer le titre Texte chaîne
transcription Texte chaîne
transcript_author Tenseur (Aucun,) chaîne