- 説明:
この大規模なメディア インタビュー データセットには、NPR と CNN からのインタビューのトランスクリプトと概要/トピックの説明から収集された、抽象的な要約を含む 463.6K のトランスクリプトが含まれています。
このデータセットの使用は研究目的のみに制限してください。
また、私たちの論文を引用してください: MediaSum: ダイアログ要約のための大規模なメディア インタビュー データセット
倫理
メディア ソースから公開されているトランスクリプト データのみを使用し、研究目的のみのガイドラインに準拠しています。
メディアやゲストは偏見を持っている可能性があるため、トランスクリプトや要約にはそれらが含まれる可能性があります。トランスクリプトおよび要約の内容は、メディアおよびゲストの見解のみを反映したものであり、慎重に閲覧する必要があります。
ソース コード:
tfds.datasets.media_sum.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ: サイズ
Unknown size
データセットサイズ:
4.11 GiB
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
manual_dir には次のファイルが含まれている必要があります。- news_dialog.json
- train_val_test_split.json
ファイルは、データセットの GitHub ページからダウンロードして抽出できます: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- 機能構造:
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
日にち | 文章 | 弦 | ||
ID | 文章 | 弦 | ||
プログラム | 文章 | 弦 | ||
スピーカー | シーケンス(テキスト) | (なし、) | 弦 | |
まとめ | 文章 | 弦 | ||
URL | 文章 | 弦 | ||
ウット | シーケンス(テキスト) | (なし、) | 弦 |
監視されたキー(
as_supervised
docを参照):('utt', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}