- Описание :
Набор данных экстремального суммирования (XSum).
Есть две функции: - документ: Входная новостная статья. - резюме: Краткое изложение статьи одним предложением.
Эти данные необходимо загрузить и извлечь вручную, как описано в https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md . Папка «xsum-extracts-from-downloads» должна быть сжата как 'xsum-extracts-from-downloads.tar.gz' и поместите в загруженную вручную папку.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Исходный код :
tfds.summarization.Xsum
Версии :
-
1.0.0
: Набор данных без очистки. -
1.1.0
(по умолчанию): Удаляет веб-контент.
-
Размер загрузки :
2.59 MiB
Размер набора данных :
512.03 MiB
.Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Подробные инструкции по загрузке (для которых требуется запуск специального скрипта) находятся здесь: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts . , поместите файл xsum-extracts-from-downloads.tar.gz в manual_dir.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 11 301 |
'train' | 203 577 |
'validation' | 11 305 |
- Структура функции :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
документ | Текст | нить | ||
резюме | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('document', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}