- Descriptif :
L'ensemble de données IRC Disentanglement contient plus de 77 563 messages du canal IRC Ubuntu.
Les fonctionnalités incluent l'identifiant du message, le texte du message et l'horodatage. La cible est la liste des messages auxquels le message actuel répond. Chaque enregistrement contient une liste de messages d'une journée de chat IRC.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : https://jkk.name/irc-disentanglement
Code source :
tfds.datasets.irc_disentanglement.Builder
Versions :
-
2.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
113.53 MiB
Taille du jeu de données :
26.59 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | dix |
'train' | 153 |
'validation' | dix |
- Structure des fonctionnalités :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
journée | Séquence | |||
jour/identifiant | Texte | chaîne de caractères | ||
jour/parents | Séquence (texte) | (Aucun,) | chaîne de caractères | |
jour/texte | Texte | chaîne de caractères | ||
jour/horodatage | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}