- opis :
BookSum: zbiór zbiorów danych do podsumowania narracji w długiej formie
Ta implementacja obsługuje obecnie tylko streszczenia książek i rozdziałów.
GitHub: https://github.com/salesforce/booksum
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/salesforce/booksum
Kod źródłowy :
tfds.datasets.booksum.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):1) Przejdź do https://github.com/salesforce/booksum i wykonaj kroki 1-3. Umieść cały projekt
booksum
git w folderze manual. 2) Pobierz książki podzielone na rozdziały z https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip i rozpakuj do folderu podręcznika.
Folder podręcznika powinien zawierać następujące katalogi:
- `booksum/`
- `all_chapterized_books/`
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy
shuffle_files=False
(pociąg)Struktura funkcji :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
dokument | Tekst | strunowy | ||
streszczenie | Tekst | strunowy |
Klucze nadzorowane (Patrz
as_supervised
doc ):('document', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
suma książek/książka (domyślna konfiguracja)
Opis konfiguracji : podsumowanie na poziomie książki
Rozmiar zestawu danych :
208.81 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Przykłady ( tfds.as_dataframe ):
księgozbiór/rozdział
Opis konfiguracji : podsumowanie na poziomie rozdziału
Rozmiar zestawu danych :
216.71 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1083 |
'train' | 6524 |
'validation' | 891 |
- Przykłady ( tfds.as_dataframe ):