- 説明:
BookSum: 長い形式の物語の要約のためのデータセットのコレクション
この実装は現在、本と章の要約のみをサポートしています。
GitHub: https://github.com/salesforce/booksum
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.booksum.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ: サイズ
Unknown size
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。1) https://github.com/salesforce/booksumにアクセスし、手順 1 ~ 3 を実行します。
booksum
git プロジェクト全体を manual フォルダーに配置します。 2) https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zipから章別の書籍をダウンロードし、manual フォルダーに解凍します。
manual フォルダには、次のディレクトリが含まれている必要があります。
- `booksum/`
- `all_chapterized_books/`
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)機能構造:
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
資料 | 文章 | ストリング | ||
まとめ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('document', 'summary')
図( tfds.show_examples ): サポートされていません。
引用:
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (デフォルト設定)
構成の説明: ブック レベルの要約
データセットサイズ:
208.81 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- 例( tfds.as_dataframe ):
ブックサム/チャプター
構成の説明: 章レベルの要約
データセットサイズ:
216.71 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- 例( tfds.as_dataframe ):