- Descrizione :
NEWSROOM è un set di dati di grandi dimensioni per la formazione e la valutazione dei sistemi di riepilogo. Contiene 1,3 milioni di articoli e riassunti scritti da autori ed editori nelle redazioni di 38 importanti testate.
Le funzionalità del set di dati includono:
- testo: inserire il testo delle notizie.
- sommario: Riassunto per la notizia.
E funzionalità aggiuntive:
- titolo: titolo della notizia.
- url: url della notizia.
- data: data dell'articolo.
- densità: densità estrattiva.
- copertura: copertura estrattiva.
- compressione: rapporto di compressione.
- densità_bin: bassa, media, alta.
- coverage_bin: estrattivo, astrattivo.
- compression_bin: basso, medio, alto.
Questo set di dati può essere scaricato su richiesta. Decomprimere tutti i contenuti "train.jsonl, dev.jsonl, test.jsonl" nella cartella tfds.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://summari.es
Codice sorgente :
tfds.datasets.newsroom.Builder
Versioni :
-
1.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati:
5.13 GiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
È necessario scaricare il set di dati da https://summari.es/download/ La pagina Web richiede la registrazione. Dopo il download, inserire i file dev.jsonl, test.jsonl e train.jsonl in manual_dir.Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Struttura delle caratteristiche :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
compressione | Tensore | galleggiante32 | ||
compressione_bin | Testo | corda | ||
copertura | Tensore | galleggiante32 | ||
copertura_bin | Testo | corda | ||
data | Testo | corda | ||
densità | Tensore | galleggiante32 | ||
densità_bin | Testo | corda | ||
riepilogo | Testo | corda | ||
testo | Testo | corda | ||
titolo | Testo | corda | ||
URL | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('text', 'summary')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}