- Descripción :
SAMSum Corpus contiene más de 16k diálogos de chat con resúmenes anotados manualmente.
Hay dos características:
- diálogo: texto de diálogo.
- resumen: resumen escrito por humanos del diálogo.
id: id de un ejemplo.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://arxiv.org/src/1911.12237v2/anc
Código fuente :
tfds.datasets.samsum.Builder
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
10.71 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Descargue https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descomprima y coloque train.json, val.json y test.json en la carpeta del manual.Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- Estructura de características :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
diálogo | Texto | cadena | ||
identificación | Texto | cadena | ||
resumen | Texto | cadena |
Teclas supervisadas (ver documento
as_supervised
):('dialogue', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}