- Descriptif :
BookSum : une collection d'ensembles de données pour le résumé narratif de forme longue
Cette implémentation ne prend actuellement en charge que les résumés de livres et de chapitres.
GitHub : https://github.com/salesforce/booksum
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/salesforce/booksum
Code source :
tfds.datasets.booksum.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :1) Accédez à https://github.com/salesforce/booksum et exécutez les étapes 1 à 3. Placez l'ensemble du projet
booksum
git dans le dossier manual. 2) Téléchargez les livres chapitrenés sur https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip et décompressez-les dans le dossier du manuel.
Le dossier du manuel doit contenir les répertoires suivants :
- `booksum/`
- `all_chapterized_books/`
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Structure des fonctionnalités :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
document | Texte | chaîne de caractères | ||
sommaire | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('document', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (configuration par défaut)
Description de la configuration : résumé au niveau du livre
Taille du jeu de données :
208.81 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Exemples ( tfds.as_dataframe ):
livre/chapitre
Description de la configuration : résumé au niveau du chapitre
Taille du jeu de données :
216.71 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 083 |
'train' | 6 524 |
'validation' | 891 |
- Exemples ( tfds.as_dataframe ):