- Descripción :
BookSum: una colección de conjuntos de datos para resúmenes narrativos de formato largo
Actualmente, esta implementación solo admite resúmenes de libros y capítulos.
GitHub: https://github.com/salesforce/booksum
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/salesforce/booksum
Código fuente :
tfds.datasets.booksum.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):1) Vaya a https://github.com/salesforce/booksum y ejecute los pasos 1-3. Coloque todo el proyecto git de
booksum
en la carpeta manual. 2) Descargue los libros divididos en capítulos de https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip y descomprímalos en la carpeta manual.
La carpeta manual debe contener los siguientes directorios:
- `booksum/`
- `all_chapterized_books/`
Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(tren)Estructura de características :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
documento | Texto | cuerda | ||
resumen | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
):('document', 'summary')
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/libro (configuración predeterminada)
Descripción de la configuración : resumen a nivel de libro
Tamaño del conjunto de datos :
208.81 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Ejemplos ( tfds.as_dataframe ):
librosum/capítulo
Descripción de la configuración : resumen a nivel de capítulo
Tamaño del conjunto de datos :
216.71 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- Ejemplos ( tfds.as_dataframe ):