ブックサム

説明:

BookSum: 長い形式の物語の要約のためのデータセットのコレクション

この実装は現在、本と章の要約のみをサポートしています。

GitHub: https://github.com/salesforce/booksum

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/salesforce/booksum
ソースコード: tfds.datasets.booksum.Builder
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
ダウンロードサイズ: サイズUnknown size
手動ダウンロードの手順: このデータセットでは、ソースデータを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
1) https://github.com/salesforce/booksumにアクセスし、手順 1 ～ 3 を実行します。 booksum git プロジェクト全体を manual フォルダーに配置します。 2) https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zipから章別の書籍をダウンロードし、manual フォルダーに解凍します。

manual フォルダには、次のディレクトリが含まれている必要があります。

- `booksum/`
- `all_chapterized_books/`

自動キャッシュ(ドキュメント): はい (テスト、検証)、 shuffle_files=Falseの場合のみ (トレーニング)
機能構造:

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
資料	文章	ストリング
まとめ	文章	ストリング

監視されたキー( as_supervised docを参照): ('document', 'summary')
図( tfds.show_examples ): サポートされていません。
引用：

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (デフォルト設定)

構成の説明: ブックレベルの要約
データセットサイズ: 208.81 MiB
スプリット:

スプリット	例
`'test'`	46
`'train'`	312
`'validation'`	45

例( tfds.as_dataframe ):

ブックサム/チャプター

構成の説明: 章レベルの要約
データセットサイズ: 216.71 MiB
スプリット:

スプリット	例
`'test'`	1,083
`'train'`	6,524
`'validation'`	891

例( tfds.as_dataframe ):

ブックサム コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

booksum/book (デフォルト設定)

ブックサム/チャプター

ブックサム