самсум

  • Описание :

SAMSum Corpus содержит более 16 000 чат-диалогов с аннотированными вручную резюме.

Есть две особенности:

  • диалог: текст диалога.
  • резюме: написанное человеком краткое изложение диалога.
  • id: идентификатор примера.

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://arxiv.org/src/1911.12237v2/anc

  • Исходный код : tfds.datasets.samsum.Builder

  • Версии :

    • 1.0.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : 10.71 MiB .

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Загрузите https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распакуйте и поместите train.json, val.json и test.json в папку с инструкциями.

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 819
'train' 14 732
'validation' 818
  • Структура функции :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
диалог Текст нить
я бы Текст нить
резюме Текст нить
  • Цитата :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}