- Descripción :
Este conjunto de datos contiene ~3 millones de mensajes de reddit. Cada mensaje está etiquetado con metadatos. La tarea es predecir la identificación de su mensaje principal en el hilo correspondiente. Cada registro contiene una lista de mensajes de un hilo. Los registros duplicados y rotos se eliminan del conjunto de datos.
Las características son:
- identificación - identificación del mensaje
- texto - mensaje de texto
- autor - autor del mensaje
- created_utc - marca de tiempo UTC del mensaje
- link_id - id de la publicación con la que se relaciona el comentario
Objetivo:
parent_id - id del mensaje principal en el hilo actual
Página de inicio: https://github.com/henghuiz/MaskedHierarchicalTransformer
Código fuente :
tfds.datasets.reddit_disentanglement.Builder
Versiones :
-
2.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Descargue https://github.com/henghuiz/MaskedHierarchicalTransformer, descomprima raw_data.zip y ejecute generate_dataset.py con sus credenciales de reddit api. Luego coloque train.csv, val.csv y test.csv del directorio de salida en la carpeta manual.Auto-caché ( documentación ): Desconocido
Divisiones :
Separar | Ejemplos |
---|
- Estructura de características :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
hilo | Secuencia | |||
hilo/autor | Texto | cadena | ||
subproceso/creado_utc | Texto | cadena | ||
subproceso/identificación | Texto | cadena | ||
hilo/link_id | Texto | cadena | ||
subproceso/parent_id | Texto | cadena | ||
hilo/texto | Texto | cadena |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}