media_sum

  • Описание :

Этот крупномасштабный набор данных интервью для СМИ содержит 463,6 тыс. расшифровок стенограмм с абстрактными резюме, собранных из расшифровок интервью и обзоров / описаний тем из NPR и CNN.

Пожалуйста, ограничьте использование этого набора данных только исследовательскими целями.

И, пожалуйста, процитируйте нашу статью: MediaSum: крупномасштабный набор данных интервью для СМИ для обобщения диалогов.

Этика

Мы использовали только общедоступные данные транскриптов из источников СМИ и придерживаемся их руководства только для исследовательских целей.

Поскольку у СМИ и гостей могут быть предвзятые взгляды, они, скорее всего, будут содержаться в стенограммах и резюме. Содержание стенограмм и резюме отражает только точку зрения представителей СМИ и гостей, и к нему следует относиться осторожно.

  • Домашняя страница : https://github.com/zcgzcgzcg1/MediaSum

  • Исходный код : tfds.datasets.media_sum.Builder

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : Unknown size

  • Размер набора данных : 4.11 GiB

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir должен содержать файлы:

    • news_dialogue.json
    • train_val_test_split.json

Файлы можно загрузить и извлечь со страницы набора данных GitHub: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data .

Расколоть Примеры
'test' 10 000
'train' 443 596
'val' 10 000
  • Структура функции :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
дата Текст нить
идентификатор Текст нить
программа Текст нить
оратор Последовательность (текст) (Никто,) нить
резюме Текст нить
URL Текст нить
утт Последовательность (текст) (Никто,) нить
  • Цитата :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}