- Descriptif :
SAMSum Corpus contient plus de 16 000 dialogues de chat avec des résumés annotés manuellement.
Il existe deux fonctionnalités :
- dialogue : texte du dialogue.
- résumé : résumé écrit humain du dialogue.
id : identifiant d'un exemple.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://arxiv.org/src/1911.12237v2/anc
Code source :
tfds.datasets.samsum.Builder
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
10.71 MiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Téléchargez https://arxiv.org/src/1911.12237v2/anc/corpus.7z, décompressez et placez train.json, val.json et test.json dans le dossier du manuel.Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 819 |
'train' | 14 732 |
'validation' | 818 |
- Structure des fonctionnalités :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
dialogue | Texte | chaîne de caractères | ||
identifiant | Texte | chaîne de caractères | ||
résumé | Texte | chaîne de caractères |
Touches supervisées (Voir doc
as_supervised
):('dialogue', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}