media_sum

  • 説明:

この大規模なメディア インタビュー データセットには、NPR と CNN からのインタビューのトランスクリプトと概要/トピックの説明から収集された、抽象的な要約を含む 463.6K のトランスクリプトが含まれています。

このデータセットの使用は研究目的のみに制限してください。

また、私たちの論文を引用してください: MediaSum: ダイアログ要約のための大規模なメディア インタビュー データセット

倫理

メディア ソースから公開されているトランスクリプト データのみを使用し、研究目的のみのガイドラインに準拠しています。

メディアやゲストは偏見を持っている可能性があるため、トランスクリプトや要約にはそれらが含まれる可能性があります。トランスクリプトおよび要約の内容は、メディアおよびゲストの見解のみを反映したものであり、慎重に閲覧する必要があります。

  • ホームページ: https://github.com/zcgzcgzcg1/MediaSum

  • ソース コード: tfds.datasets.media_sum.Builder

  • バージョン:

    • 1.0.0 (デフォルト): 初期リリース。
  • ダウンロードサイズ: サイズUnknown size

  • データセットサイズ: 4.11 GiB

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    manual_dir には次のファイルが含まれている必要があります。

    • news_dialog.json
    • train_val_test_split.json

ファイルは、データセットの GitHub ページからダウンロードして抽出できます: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

スプリット
'test' 10,000
'train' 443,596
'val' 10,000
  • 機能構造:
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
日にち文章
ID文章
プログラム文章
スピーカーシーケンス(テキスト) (なし、)
まとめ文章
URL文章
ウットシーケンス(テキスト) (なし、)
  • 引用
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}