reddit_distanglement

  • Descriptif :

Cet ensemble de données contient ~3 millions de messages de reddit. Chaque message est étiqueté avec des métadonnées. La tâche consiste à prédire l'identifiant de son message parent dans le thread correspondant. Chaque enregistrement contient une liste de messages d'un thread. Les enregistrements en double et cassés sont supprimés de l'ensemble de données.

Les fonctionnalités sont :

  • identifiant - identifiant du message
  • texte - texte du message
  • auteur - auteur du message
  • created_utc - horodatage UTC du message
  • link_id - id du message auquel le commentaire se rapporte

Cibler:

  • parent_id - id du message parent dans le fil en cours

  • Page d' accueil : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • Code source : tfds.datasets.reddit_disentanglement.Builder

  • Versions :

    • 2.0.0 (par défaut) : aucune note de version.
  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : Unknown size

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Téléchargez https://github.com/henghuiz/MaskedHierarchicalTransformer, décompressez raw_data.zip et exécutez generate_dataset.py avec vos informations d'identification api reddit. Ensuite, placez train.csv, val.csv et test.csv du répertoire de sortie dans le dossier du manuel.

  • Mise en cache automatique ( documentation ): Inconnu

  • Fractionnements :

Diviser Exemples
  • Structure des fonctionnalités :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
fil Séquence
fil/auteur Texte chaîne de caractères
fil/created_utc Texte chaîne de caractères
fil/identifiant Texte chaîne de caractères
thread/link_id Texte chaîne de caractères
fil/identifiant_parent Texte chaîne de caractères
fil/texte Texte chaîne de caractères
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}