- Descriptif :
Ensemble de données de résumé extrême (XSum).
Il existe deux fonctionnalités : - document : saisie d'un article d'actualité. - résumé : une phrase récapitulant l'article.
Ces données doivent être téléchargées et extraites manuellement comme décrit dans https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md Le dossier 'xsum-extracts-from-downloads' doit être compressé comme 'xsum-extracts-from-downloads.tar.gz' et placez-le dans le dossier téléchargé manuellement.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Code source :
tfds.summarization.Xsum
Versions :
-
1.0.0
: Jeu de données sans nettoyage. -
1.1.0
(par défaut) : Supprime le contenu Web.
-
Taille du téléchargement :
2.59 MiB
Taille du jeu de données :
512.03 MiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Les instructions de téléchargement détaillées (qui nécessitent l'exécution d'un script personnalisé) sont ici : https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts , veuillez mettre le fichier xsum-extracts-from-downloads.tar.gz dans le manual_dir.Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 11 301 |
'train' | 203 577 |
'validation' | 11 305 |
- Structure des fonctionnalités :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
document | Texte | chaîne de caractères | ||
sommaire | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('document', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}