- Descriptif :
Cet ensemble de données contient ~3 millions de messages de reddit. Chaque message est étiqueté avec des métadonnées. La tâche consiste à prédire l'identifiant de son message parent dans le thread correspondant. Chaque enregistrement contient une liste de messages d'un thread. Les enregistrements en double et cassés sont supprimés de l'ensemble de données.
Les fonctionnalités sont :
- identifiant - identifiant du message
- texte - texte du message
- auteur - auteur du message
- created_utc - horodatage UTC du message
- link_id - id du message auquel le commentaire se rapporte
Cibler:
parent_id - id du message parent dans le fil en cours
Page d' accueil : https://github.com/henghuiz/MaskedHierarchicalTransformer
Code source :
tfds.datasets.reddit_disentanglement.Builder
Versions :
-
2.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Téléchargez https://github.com/henghuiz/MaskedHierarchicalTransformer, décompressez raw_data.zip et exécutez generate_dataset.py avec vos informations d'identification api reddit. Ensuite, placez train.csv, val.csv et test.csv du répertoire de sortie dans le dossier du manuel.Mise en cache automatique ( documentation ): Inconnu
Fractionnements :
Diviser | Exemples |
---|
- Structure des fonctionnalités :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
fil | Séquence | |||
fil/auteur | Texte | chaîne de caractères | ||
fil/created_utc | Texte | chaîne de caractères | ||
fil/identifiant | Texte | chaîne de caractères | ||
thread/link_id | Texte | chaîne de caractères | ||
fil/identifiant_parent | Texte | chaîne de caractères | ||
fil/texte | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}