- Descripción :
WikiDialog es un gran conjunto de datos de conversaciones de búsqueda de información generadas sintéticamente. Cada conversación en el conjunto de datos contiene dos hablantes basados en un pasaje de Wikipedia en inglés: las declaraciones de un hablante consisten en oraciones exactas del pasaje; el otro hablante es generado por un gran modelo de lenguaje.
Descripción de la configuración : WikiDialog generado a partir del cuadro de diálogo inpainter ajustado en OR-QuAC y QReCC.
OQ
significa OR-QuAC y QReCC.Página de inicio: https://github.com/google-research/dialog-inpainting#wikidialog-oq
Código fuente :
tfds.text.wiki_dialog.WikiDialog
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
7.04 GiB
Tamaño del conjunto de datos :
36.58 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- Estructura de características :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
autor_num | Secuencia (tensor) | (Ninguna,) | int32 | |
paso | Texto | cuerda | ||
pid | Texto | cuerda | ||
oraciones | Secuencia (Texto) | (Ninguna,) | cuerda | |
título | Texto | cuerda | ||
declaraciones | Secuencia (Texto) | (Ninguna,) | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}