somme de livres

Descriptif :

BookSum : une collection d'ensembles de données pour le résumé narratif de forme longue

Cette implémentation ne prend actuellement en charge que les résumés de livres et de chapitres.

GitHub : https://github.com/salesforce/booksum

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/salesforce/booksum
Code source : tfds.datasets.booksum.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
1) Accédez à https://github.com/salesforce/booksum et exécutez les étapes 1 à 3. Placez l'ensemble du projet booksum git dans le dossier manual. 2) Téléchargez les livres chapitrenés sur https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip et décompressez-les dans le dossier du manuel.

Le dossier du manuel doit contenir les répertoires suivants :

- `booksum/`
- `all_chapterized_books/`

Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)
Structure des fonctionnalités :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
document	Texte	chaîne de caractères
sommaire	Texte	chaîne de caractères

Clés supervisées (Voir as_supervised doc ): ('document', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (configuration par défaut)

Description de la configuration : résumé au niveau du livre
Taille du jeu de données : 208.81 MiB
Fractionnements :

Diviser	Exemples
`'test'`	46
`'train'`	312
`'validation'`	45

Exemples ( tfds.as_dataframe ):

livre/chapitre

Description de la configuration : résumé au niveau du chapitre
Taille du jeu de données : 216.71 MiB
Fractionnements :

Diviser	Exemples
`'test'`	1 083
`'train'`	6 524
`'validation'`	891

Exemples ( tfds.as_dataframe ):

somme de livres Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

booksum/book (configuration par défaut)

livre/chapitre

somme de livres