media_sum

Описание :

Этот крупномасштабный набор данных интервью для СМИ содержит 463,6 тыс. расшифровок стенограмм с абстрактными резюме, собранных из расшифровок интервью и обзоров / описаний тем из NPR и CNN.

Пожалуйста, ограничьте использование этого набора данных только исследовательскими целями.

И, пожалуйста, процитируйте нашу статью: MediaSum: крупномасштабный набор данных интервью для СМИ для обобщения диалогов.

Этика

Мы использовали только общедоступные данные транскриптов из источников СМИ и придерживаемся их руководства только для исследовательских целей.

Поскольку у СМИ и гостей могут быть предвзятые взгляды, они, скорее всего, будут содержаться в стенограммах и резюме. Содержание стенограмм и резюме отражает только точку зрения представителей СМИ и гостей, и к нему следует относиться осторожно.

Домашняя страница : https://github.com/zcgzcgzcg1/MediaSum
Исходный код : tfds.datasets.media_sum.Builder
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Размер загрузки : Unknown size
Размер набора данных : 4.11 GiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
manual_dir должен содержать файлы:
- news_dialogue.json
- train_val_test_split.json

Файлы можно загрузить и извлечь со страницы набора данных GitHub: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data .

Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	10 000
`'train'`	443 596
`'val'`	10 000

Структура функции :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Документация по функциям :

Особенность	Сорт	Форма	Dтип
	ОсобенностиDict
дата	Текст		нить
идентификатор	Текст		нить
программа	Текст		нить
оратор	Последовательность (текст)	(Никто,)	нить
резюме	Текст		нить
URL	Текст		нить
утт	Последовательность (текст)	(Никто,)	нить

Контролируемые ключи (см. as_supervised doc ): ('utt', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Этика

media_sum