- Descripción :
WikiHow es un nuevo conjunto de datos a gran escala que utiliza la base de conocimiento en línea de WikiHow ( http://www.wikihow.com/ ).
Hay dos características: - texto: wikihow responde textos. - titular: líneas en negrita a modo de resumen.
Hay dos versiones separadas: - all: consiste en la concatenación de todos los párrafos como los artículos y las líneas en negrita como los resúmenes de referencia. - sep: formado por cada párrafo y su resumen.
Descargue "wikihowAll.csv" y "wikihowSep.csv" de https://github.com/mahnazkoupaee/WikiHow-Dataset y colóquelos en la carpeta manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validation/test splits son proporcionados por los autores. Se aplica preprocesamiento para eliminar artículos breves (longitud del resumen < 0,75 de longitud del artículo) y limpiar las comas adicionales.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/mahnazkoupaee/WikiHow-Dataset
Código fuente :
tfds.summarization.Wikihow
Versiones :
-
1.2.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
5.21 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Los enlaces a los archivos se pueden encontrar en https://github.com/mahnazkoupaee/WikiHow-Dataset Descargue wikihowAll.csv y wikihowSep.csv.Almacenamiento automático en caché ( documentación ): No
Claves supervisadas (ver documento
as_supervised
):('text', 'headline')
Figura ( tfds.show_examples ): no compatible.
Cita :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (configuración predeterminada)
Descripción de la configuración : use la concatenación de todos los párrafos como artículos y las líneas en negrita como resúmenes de referencia
Tamaño del conjunto de datos :
531.56 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- Estructura de características :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
titular | Texto | cuerda | ||
texto | Texto | cuerda | ||
título | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
wikihow/septiembre
Descripción de la configuración : utiliza cada párrafo y su resumen.
Tamaño del conjunto de datos :
1.07 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- Estructura de características :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
titular | Texto | cuerda | ||
visión general | Texto | cuerda | ||
secciónEtiqueta | Texto | cuerda | ||
texto | Texto | cuerda | ||
título | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):