- Descrizione :
Set di dati di riepilogo estremo (XSum).
Ci sono due funzioni: - documento: Inserisci l'articolo di notizie. - sommario: sintesi di una frase dell'articolo.
Questi dati devono essere scaricati manualmente ed estratti come descritto in https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md La cartella 'xsum-extracts-from-downloads' deve essere compressa come 'xsum-extracts-from-downloads.tar.gz' e inserito nella cartella scaricata manualmente.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Codice sorgente :
tfds.summarization.Xsum
Versioni :
-
1.0.0
: set di dati senza pulizia. -
1.1.0
(impostazione predefinita): rimuove i contenuti web.
-
Dimensione del download :
2.59 MiB
Dimensione del set di dati:
512.03 MiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Le istruzioni dettagliate per il download (che richiedono l'esecuzione di uno script personalizzato) sono qui: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts in seguito , inserisci il file xsum-extracts-from-downloads.tar.gz in manual_dir.Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 11.301 |
'train' | 203.577 |
'validation' | 11.305 |
- Struttura delle caratteristiche :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
documento | Testo | corda | ||
riepilogo | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('document', 'summary')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}