ブックサム

  • 説明:

BookSum: 長い形式の物語の要約のためのデータセットのコレクション

この実装は現在、本と章の要約のみをサポートしています。

GitHub: https://github.com/salesforce/booksum

manual フォルダには、次のディレクトリが含まれている必要があります。

- `booksum/`
- `all_chapterized_books/`
  • 自動キャッシュ(ドキュメント): はい (テスト、検証)、 shuffle_files=Falseの場合のみ (トレーニング)

  • 機能構造:

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
資料文章ストリング
まとめ文章ストリング
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (デフォルト設定)

  • 構成の説明: ブック レベルの要約

  • データセットサイズ: 208.81 MiB

  • スプリット:

スプリット
'test' 46
'train' 312
'validation' 45

ブックサム/チャプター

  • 構成の説明: 章レベルの要約

  • データセットサイズ: 216.71 MiB

  • スプリット:

スプリット
'test' 1,083
'train' 6,524
'validation' 891