- Описание :
SAMSum Corpus содержит более 16 000 чат-диалогов с аннотированными вручную резюме.
Есть две особенности:
- диалог: текст диалога.
- резюме: написанное человеком краткое изложение диалога.
id: идентификатор примера.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://arxiv.org/src/1911.12237v2/anc
Исходный код :
tfds.datasets.samsum.Builder
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown size
Размер набора данных :
10.71 MiB
.Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Загрузите https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распакуйте и поместите train.json, val.json и test.json в папку с инструкциями.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 819 |
'train' | 14 732 |
'validation' | 818 |
- Структура функции :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
диалог | Текст | нить | ||
я бы | Текст | нить | ||
резюме | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('dialogue', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}