rédaction

  • Descriptif :

NEWSROOM est un vaste ensemble de données pour la formation et l'évaluation des systèmes de synthèse. Il contient 1,3 million d'articles et de résumés rédigés par des auteurs et des éditeurs dans les salles de rédaction de 38 publications majeures.

Les fonctionnalités de l'ensemble de données incluent :

  • texte : saisir le texte des actualités.
  • résumé : résumé de l'actualité.

Et fonctionnalités supplémentaires :

  • titre : titre de l'actualité.
  • url : url de l'actualité.
  • date : date de l'article.
  • densité : densité extractive.
  • couverture : couverture extractive.
  • compression : taux de compression.
  • densité_bin : faible, moyenne, élevée.
  • cover_bin : extractif, abstrait.
  • compression_bin : faible, moyen, élevé.

Cet ensemble de données peut être téléchargé sur demande. Décompressez tout le contenu "train.jsonl, dev.jsonl, test.jsonl" dans le dossier tfds.

  • Documentation complémentaire : Explorer sur Papers With Code

  • Page d' accueil : https://summari.es

  • Code source : tfds.datasets.newsroom.Builder

  • Versions :

    • 1.0.0 (par défaut) : aucune note de version.
  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : 5.13 GiB

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Vous devez télécharger l'ensemble de données à partir de https://summari.es/download/ La page Web nécessite une inscription. Après le téléchargement, placez les fichiers dev.jsonl, test.jsonl et train.jsonl dans le répertoire manual_dir.

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 108 862
'train' 995 041
'validation' 108 837
  • Structure des fonctionnalités :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
compression Tenseur float32
compression_bin Texte chaîne
couverture Tenseur float32
couverture_bin Texte chaîne
date Texte chaîne
densité Tenseur float32
densité_bin Texte chaîne
résumé Texte chaîne
texte Texte chaîne
titre Texte chaîne
URL Texte chaîne
  • Citation :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}