Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

sala de redacción

Descripción :

NEWSROOM es un gran conjunto de datos para entrenar y evaluar sistemas de resumen. Contiene 1,3 millones de artículos y resúmenes escritos por autores y editores en las salas de redacción de 38 publicaciones importantes.

Las características del conjunto de datos incluyen:

text: Ingrese el texto de la noticia.
resumen: Resumen de la noticia.

Y características adicionales:

título: título de la noticia.
url: url de la noticia.
fecha: fecha del artículo.
densidad: densidad extractiva.
cobertura: cobertura extractiva.
compresión: relación de compresión.
densidad_bin: bajo, medio, alto.
covery_bin: extractivo, abstractivo.
compresión_bin: bajo, medio, alto.

Este conjunto de datos se puede descargar a pedido. Descomprima todo el contenido "train.jsonl, dev.jsonl, test.jsonl" en la carpeta tfds.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://summari.es
Código fuente : tfds.datasets.newsroom.Builder
Versiones :
- 1.0.0 (predeterminado): Sin notas de la versión.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : 5.13 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
Debe descargar el conjunto de datos de https://summari.es/download/ La página web requiere registro. Después de la descarga, coloque los archivos dev.jsonl, test.jsonl y train.jsonl en manual_dir.
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	108,862
`'train'`	995,041
`'validation'`	108,837

Estructura de características :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Documentación de características :

Característica	Clase	Tipo D
	CaracterísticasDict
compresión	Tensor	flotar32
compresión_bin	Texto	cadena
cobertura	Tensor	flotar32
cobertura_bin	Texto	cadena
fecha	Texto	cadena
densidad	Tensor	flotar32
densidad_bin	Texto	cadena
resumen	Texto	cadena
texto	Texto	cadena
título	Texto	cadena
URL	Texto	cadena

Claves supervisadas (ver as_supervised doc ): ('text', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}