- Descripción :
El conjunto de datos de desenredado de IRC contiene más de 77 563 mensajes del canal IRC de Ubuntu.
Las características incluyen la identificación del mensaje, el texto del mensaje y la marca de tiempo. El destino es una lista de mensajes a los que responde el mensaje actual. Cada registro contiene una lista de mensajes de un día de chat IRC.
Documentación adicional : Explore en Papers With Code
Página de inicio : https://jkk.name/irc-disentanglement
Código fuente :
tfds.datasets.irc_disentanglement.Builder
Versiones :
-
2.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
113.53 MiB
Tamaño del conjunto de datos :
26.59 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Estructura de características :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
día | Secuencia | |||
día/identificación | Texto | cuerda | ||
día/padres | Secuencia (Texto) | (Ninguna,) | cuerda | |
día/texto | Texto | cuerda | ||
día/marca de tiempo | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}