- Descriptif :
Ensemble de données Reddit, où TIFU désigne le nom du sous-breddit /r/tifu. Comme défini dans la publication, le style "short" utilise le titre comme résumé et "long" utilise tldr comme résumé.
Les fonctionnalités incluent :
- document : publier du texte sans tldr.
- tldr : ligne tldr.
- titre : titre rogné sans tldr.
- ups : votes positifs.
- score : score.
- num_comments : nombre de commentaires.
upvote_ratio : taux de vote positif.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/ctr4si/MMN
Code source :
tfds.datasets.reddit_tifu.Builder
Versions :
-
1.1.0
: Supprimez le document vide et les chaînes de résumé. -
1.1.1
: Ajout des fractionnements d'entraînement, de développement et de test (80/10/10) qui sont utilisés dans PEGASUS ( https://arxiv.org/abs/1912.08777 ) dans une configuration séparée. Ceux-ci ont été créés de manière aléatoire à l'aide de la fonction de division tfds et sont publiés pour garantir que les résultats sur Reddit Tifu Long sont reproductibles et comparables. Ajoutez également unid
aux points de données. -
1.1.2
(par défaut) : splits corrigés téléchargés.
-
Structure des fonctionnalités :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
documents | Texte | chaîne de caractères | ||
identifiant | Texte | chaîne de caractères | ||
nombre_commentaires | Tenseur | float32 | ||
score | Tenseur | float32 | ||
Titre | Texte | chaîne de caractères | ||
tldr | Texte | chaîne de caractères | ||
UPS | Tenseur | float32 | ||
upvote_ratio | Tenseur | float32 |
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (configuration par défaut)
Description de la configuration : Utilisation du titre comme résumé.
Taille du téléchargement :
639.54 MiB
Taille du jeu de données :
141.46 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 79 740 |
Clés supervisées (Voir
as_supervised
doc ):('documents', 'title')
Exemples ( tfds.as_dataframe ):
reddit_tifu/long
Description de la configuration : Utilisation de TLDR comme résumé.
Taille du téléchargement :
639.54 MiB
Taille du jeu de données :
93.10 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 42 139 |
Clés supervisées (Voir
as_supervised
doc ):('documents', 'tldr')
Exemples ( tfds.as_dataframe ):
reddit_tifu/long_split
Description de la configuration : Utilisation de TLDR comme résumé et renvoi des fractionnements train/test/dev.
Taille du téléchargement :
639.94 MiB
Taille du jeu de données :
93.10 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 214 |
'train' | 33 711 |
'validation' | 4 214 |
Clés supervisées (Voir
as_supervised
doc ):('documents', 'tldr')
Exemples ( tfds.as_dataframe ):