- Описание :
Этот крупномасштабный набор данных интервью для СМИ содержит 463,6 тыс. расшифровок стенограмм с абстрактными резюме, собранных из расшифровок интервью и обзоров / описаний тем из NPR и CNN.
Пожалуйста, ограничьте использование этого набора данных только исследовательскими целями.
И, пожалуйста, процитируйте нашу статью: MediaSum: крупномасштабный набор данных интервью для СМИ для обобщения диалогов.
Этика
Мы использовали только общедоступные данные транскриптов из источников СМИ и придерживаемся их руководства только для исследовательских целей.
Поскольку у СМИ и гостей могут быть предвзятые взгляды, они, скорее всего, будут содержаться в стенограммах и резюме. Содержание стенограмм и резюме отражает только точку зрения представителей СМИ и гостей, и к нему следует относиться осторожно.
Домашняя страница : https://github.com/zcgzcgzcg1/MediaSum
Исходный код :
tfds.datasets.media_sum.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Размер набора данных :
4.11 GiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
manual_dir должен содержать файлы:- news_dialogue.json
- train_val_test_split.json
Файлы можно загрузить и извлечь со страницы набора данных GitHub: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data .
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 000 |
'train' | 443 596 |
'val' | 10 000 |
- Структура функции :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
дата | Текст | нить | ||
идентификатор | Текст | нить | ||
программа | Текст | нить | ||
оратор | Последовательность (текст) | (Никто,) | нить | |
резюме | Текст | нить | ||
URL | Текст | нить | ||
утт | Последовательность (текст) | (Никто,) | нить |
Контролируемые ключи (см.
as_supervised
doc ):('utt', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}