reddit_tifu

  • 説明:

Reddit データセット。ここで、TIFU は subbreddit /r/tifu の名前を示します。出版物で定義されているように、スタイル「ショート」はタイトルを要約として使用し、「ロング」は要約として tldr を使用します。

機能は次のとおりです。

  • ドキュメント: tldr なしでテキストを投稿します。
  • tldr: tldr 行。
  • タイトル: tldr のないトリミングされたタイトル。
  • ups: 賛成票。
  • スコア:スコア。
  • num_comments: コメント数。
  • upvote_ratio: 賛成票の比率。

  • 追加のドキュメント:コードを使用したペーパーの探索

  • ホームページ: https://github.com/ctr4si/MMN

  • ソースコード: tfds.datasets.reddit_tifu.Builder

  • バージョン:

    • 1.1.0 : 空のドキュメントと要約文字列を削除します。
    • 1.1.1 : PEGASUS ( https://arxiv.org/abs/1912.08777 ) で使用されるトレーニング、開発、およびテスト (80/10/10) 分割を別の構成に追加します。これらは tfds 分割機能を使用してランダムに作成され、Reddit Tifu Long での結果が再現可能で比較可能であることを保証するためにリリースされています。また、データポイントにidを追加します。
    • 1.1.2 (デフォルト): 修正されたスプリットがアップロードされました。
  • 機能構造:

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ドキュメント文章ストリング
ID文章ストリング
コメント数テンソルfloat32
スコアテンソルfloat32
題名文章ストリング
tldr文章ストリング
UPSテンソルfloat32
upvote_ratioテンソルfloat32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (デフォルト設定)

  • 構成の説明: タイトルを要約として使用します。

  • ダウンロードサイズ: 639.54 MiB

  • データセットのサイズ: 141.46 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 79,740

reddit_tifu/ロング

  • 構成の説明: TLDR を要約として使用します。

  • ダウンロードサイズ: 639.54 MiB

  • データセットのサイズ: 93.10 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 42,139

reddit_tifu/long_split

  • 構成の説明: TLDR を要約として使用し、トレーニング/テスト/開発の分割を返します。

  • ダウンロードサイズ: 639.94 MiB

  • データセットのサイズ: 93.10 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 4,214
'train' 33,711
'validation' 4,214