- 説明:
NEWSROOM は、要約システムのトレーニングと評価のための大規模なデータセットです。 38 の主要出版物のニュースルームで執筆者や編集者が執筆した 130 万件の記事と要約が含まれています。
データセットの機能は次のとおりです。
- text: ニュースのテキストを入力します。
- summary: ニュースの要約。
追加機能:
- タイトル: ニュースのタイトル。
- url: ニュースの URL。
- date: 記事の日付。
- 密度: 抽出密度。
- カバレッジ: 抽出カバレッジ。
- 圧縮: 圧縮率。
- density_bin: 低、中、高。
- coverage_bin: 抽出的、抽象的。
- 圧縮ビン: 低、中、高。
このデータセットは、リクエストに応じてダウンロードできます。すべてのコンテンツ「train.jsonl、dev.jsonl、test.jsonl」を tfds フォルダーに解凍します。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://summari.es
ソース コード:
tfds.datasets.newsroom.Builder
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットサイズ:
5.13 GiB
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
https://summari.es/download/からデータセットをダウンロードする必要があります。この Web ページには登録が必要です。ダウンロード後、dev.jsonl、test.jsonl、train.jsonl ファイルを manual_dir に配置してください。自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- 機能構造:
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
圧縮 | テンソル | float32 | ||
圧縮ビン | 文章 | 弦 | ||
カバレッジ | テンソル | float32 | ||
カバレッジ_ビン | 文章 | 弦 | ||
日にち | 文章 | 弦 | ||
密度 | テンソル | float32 | ||
密度ビン | 文章 | 弦 | ||
まとめ | 文章 | 弦 | ||
文章 | 文章 | 弦 | ||
タイトル | 文章 | 弦 | ||
URL | 文章 | 弦 |
監視されたキー(
as_supervised
docを参照):('text', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}