ニュースルーム

説明:

NEWSROOM は、要約システムのトレーニングと評価のための大規模なデータセットです。 38 の主要出版物のニュースルームで執筆者や編集者が執筆した 130 万件の記事と要約が含まれています。

データセットの機能は次のとおりです。

text: ニュースのテキストを入力します。
summary: ニュースの要約。

追加機能:

タイトル: ニュースのタイトル。
url: ニュースの URL。
date: 記事の日付。
密度: 抽出密度。
カバレッジ: 抽出カバレッジ。
圧縮: 圧縮率。
density_bin: 低、中、高。
coverage_bin: 抽出的、抽象的。
圧縮ビン: 低、中、高。

このデータセットは、リクエストに応じてダウンロードできます。すべてのコンテンツ「train.jsonl、dev.jsonl、test.jsonl」を tfds フォルダーに解凍します。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://summari.es
ソースコード: tfds.datasets.newsroom.Builder
バージョン:
- 1.0.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: サイズUnknown size
データセットサイズ: 5.13 GiB
手動ダウンロードの手順: このデータセットでは、ソースデータを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
https://summari.es/download/からデータセットをダウンロードする必要があります。この Web ページには登録が必要です。ダウンロード後、dev.jsonl、test.jsonl、train.jsonl ファイルを manual_dir に配置してください。
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'test'`	108,862
`'train'`	995,041
`'validation'`	108,837

機能構造:

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
圧縮	テンソル	float32
圧縮ビン	文章	弦
カバレッジ	テンソル	float32
カバレッジ_ビン	文章	弦
日にち	文章	弦
密度	テンソル	float32
密度ビン	文章	弦
まとめ	文章	弦
文章	文章	弦
タイトル	文章	弦
URL	文章	弦

監視されたキー( as_supervised docを参照): ('text', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

ニュースルーム コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ニュースルーム