- 説明:
Reddit データセット。ここで、TIFU は subbreddit /r/tifu の名前を示します。出版物で定義されているように、スタイル「ショート」はタイトルを要約として使用し、「ロング」は要約として tldr を使用します。
機能は次のとおりです。
- ドキュメント: tldr なしでテキストを投稿します。
- tldr: tldr 行。
- タイトル: tldr のないトリミングされたタイトル。
- ups: 賛成票。
- スコア:スコア。
- num_comments: コメント数。
upvote_ratio: 賛成票の比率。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/ctr4si/MMN
バージョン:
-
1.1.0
: 空のドキュメントと要約文字列を削除します。 -
1.1.1
: PEGASUS ( https://arxiv.org/abs/1912.08777 ) で使用されるトレーニング、開発、およびテスト (80/10/10) 分割を別の構成に追加します。これらは tfds 分割機能を使用してランダムに作成され、Reddit Tifu Long での結果が再現可能で比較可能であることを保証するためにリリースされています。また、データポイントにid
を追加します。 -
1.1.2
(デフォルト): 修正されたスプリットがアップロードされました。
-
機能構造:
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ドキュメント | 文章 | ストリング | ||
ID | 文章 | ストリング | ||
コメント数 | テンソル | float32 | ||
スコア | テンソル | float32 | ||
題名 | 文章 | ストリング | ||
tldr | 文章 | ストリング | ||
UPS | テンソル | float32 | ||
upvote_ratio | テンソル | float32 |
図( tfds.show_examples ): サポートされていません。
引用:
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (デフォルト設定)
構成の説明: タイトルを要約として使用します。
ダウンロードサイズ:
639.54 MiB
データセットのサイズ:
141.46 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 79,740 |
監視されたキー(
as_supervised
docを参照):('documents', 'title')
例( tfds.as_dataframe ):
reddit_tifu/ロング
構成の説明: TLDR を要約として使用します。
ダウンロードサイズ:
639.54 MiB
データセットのサイズ:
93.10 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 42,139 |
監視されたキー(
as_supervised
docを参照):('documents', 'tldr')
例( tfds.as_dataframe ):
reddit_tifu/long_split
構成の説明: TLDR を要約として使用し、トレーニング/テスト/開発の分割を返します。
ダウンロードサイズ:
639.94 MiB
データセットのサイズ:
93.10 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
監視されたキー(
as_supervised
docを参照):('documents', 'tldr')
例( tfds.as_dataframe ):