- Описание :
BookSum: коллекция наборов данных для обобщения подробного повествования
Эта реализация в настоящее время поддерживает только сводки книг и глав.
Гитхаб: https://github.com/salesforce/booksum
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/salesforce/booksum
Исходный код :
tfds.datasets.booksum.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):1) Перейдите на https://github.com/salesforce/booksum и выполните шаги 1–3. Поместите весь проект
booksum
git в папку руководства. 2) Загрузите книги, разбитые на главы, со страницы https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip и разархивируйте их в папку руководства.
Папка manual должна содержать следующие каталоги:
- `booksum/`
- `all_chapterized_books/`
Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Структура функции :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
документ | Текст | нить | ||
резюме | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('document', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (конфигурация по умолчанию)
Описание конфигурации : обобщение на уровне книги.
Размер набора данных :
208.81 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Примеры ( tfds.as_dataframe ):
книжная сумма / глава
Описание конфигурации : обобщение на уровне главы
Размер набора данных :
216.71 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1083 |
'train' | 6524 |
'validation' | 891 |
- Примеры ( tfds.as_dataframe ):