media_sum

説明:

この大規模なメディアインタビューデータセットには、NPR と CNN からのインタビューのトランスクリプトと概要/トピックの説明から収集された、抽象的な要約を含む 463.6K のトランスクリプトが含まれています。

このデータセットの使用は研究目的のみに制限してください。

また、私たちの論文を引用してください: MediaSum: ダイアログ要約のための大規模なメディアインタビューデータセット

倫理

メディアソースから公開されているトランスクリプトデータのみを使用し、研究目的のみのガイドラインに準拠しています。

メディアやゲストは偏見を持っている可能性があるため、トランスクリプトや要約にはそれらが含まれる可能性があります。トランスクリプトおよび要約の内容は、メディアおよびゲストの見解のみを反映したものであり、慎重に閲覧する必要があります。

ホームページ: https://github.com/zcgzcgzcg1/MediaSum
ソースコード: tfds.datasets.media_sum.Builder
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
ダウンロードサイズ: サイズUnknown size
データセットサイズ: 4.11 GiB
手動ダウンロードの手順: このデータセットでは、ソースデータを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
manual_dir には次のファイルが含まれている必要があります。
- news_dialog.json
- train_val_test_split.json

ファイルは、データセットの GitHub ページからダウンロードして抽出できます: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'test'`	10,000
`'train'`	443,596
`'val'`	10,000

機能構造:

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
日にち	文章		弦
ID	文章		弦
プログラム	文章		弦
スピーカー	シーケンス(テキスト)	（なし、）	弦
まとめ	文章		弦
URL	文章		弦
ウット	シーケンス(テキスト)	（なし、）	弦

監視されたキー( as_supervised docを参照): ('utt', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}