- Descripción :
Este conjunto de datos de entrevistas de medios a gran escala contiene 463.6K transcripciones con resúmenes abstractos, recopilados de transcripciones de entrevistas y descripciones generales/temáticas de NPR y CNN.
Restrinja el uso de este conjunto de datos únicamente con fines de investigación.
Y cite nuestro artículo: MediaSum: un conjunto de datos de entrevistas de medios a gran escala para resumir diálogos
Ética
Hemos utilizado solo los datos de transcripciones disponibles públicamente de las fuentes de los medios y nos adherimos a su directriz solo para fines de investigación.
Dado que los medios de comunicación y los invitados pueden tener puntos de vista sesgados, es probable que las transcripciones y los resúmenes los contengan. El contenido de las transcripciones y resúmenes solo refleja las opiniones de los medios e invitados, y debe verse con discreción.
Página de inicio: https://github.com/zcgzcgzcg1/MediaSum
Código fuente :
tfds.datasets.media_sum.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
4.11 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
manual_dir debe contener los archivos:- noticias_diálogo.json
- tren_val_prueba_split.json
Los archivos se pueden descargar y extraer de la página de GitHub del conjunto de datos: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- Estructura de características :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
fecha | Texto | cadena | ||
identificación | Texto | cadena | ||
programa | Texto | cadena | ||
vocero | Secuencia (Texto) | (Ninguno,) | cadena | |
resumen | Texto | cadena | ||
URL | Texto | cadena | ||
utt | Secuencia (Texto) | (Ninguno,) | cadena |
Claves supervisadas (ver
as_supervised
doc ):('utt', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}