- Descrizione :
BookSum: una raccolta di set di dati per il riepilogo narrativo di lunga durata
Questa implementazione attualmente supporta solo riepiloghi di libri e capitoli.
GitHub: https://github.com/salesforce/booksum
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/salesforce/booksum
Codice sorgente :
tfds.datasets.booksum.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):1) Vai su https://github.com/salesforce/booksum ed esegui i passaggi 1-3. Posiziona l'intero progetto git
booksum
nella cartella manuale. 2) Scarica i libri suddivisi in capitoli da https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip e decomprimili nella cartella manuale.
La cartella manual dovrebbe contenere le seguenti directory:
- `booksum/`
- `all_chapterized_books/`
Cache automatica ( documentazione ): Sì (test, convalida), solo quando
shuffle_files=False
(train)Struttura delle caratteristiche :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
documento | Testo | corda | ||
riepilogo | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('document', 'summary')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/libro (configurazione predefinita)
Descrizione della configurazione : riepilogo a livello di libro
Dimensione del set di dati:
208.81 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Esempi ( tfds.as_dataframe ):
sommario/capitolo
Descrizione della configurazione : riepilogo a livello di capitolo
Dimensione del set di dati:
216.71 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.083 |
'train' | 6.524 |
'validation' | 891 |
- Esempi ( tfds.as_dataframe ):