- 説明:
WikiHow は、オンライン WikiHow ( http://www.wikihow.com/ ) ナレッジ ベースを使用した新しい大規模なデータセットです。
2 つの機能があります: - テキスト: wikihow がテキストに回答します。 - 見出し: 要約として太字の行。
2 つの別々のバージョンがあります。 - all: すべてのパラグラフを記事として連結し、太字の行を参照要約として構成します。 - 9 月: 各段落とその要約で構成されます。
https://github.com/mahnazkoupaee/WikiHow-Dataset から「wikihowAll.csv」と「wikihowSep.csv」をダウンロードし、manual フォルダーhttps://www.tensorflow.org/datasets/api_docs/python/tfds/に配置します。 download/DownloadConfig Train/validation/test 分割は、作成者によって提供されます。短い記事 (記事の長さの要約の長さ < 0.75) を削除し、余分なコンマをクリーンアップするために、前処理が適用されます。
追加のドキュメント:コード を使用したペーパーの探索
ソースコード:
tfds.summarization.Wikihow
バージョン:
-
1.2.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
5.21 MiB
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
ファイルへのリンクはhttps://github.com/mahnazkoupaee/WikiHow-Datasetにあります。wikihowAll.csv と wikihowSep.csv の両方をダウンロードしてください。自動キャッシュ(ドキュメント): いいえ
監視されたキー(
as_supervised
docを参照):('text', 'headline')
図( tfds.show_examples ): サポートされていません。
引用:
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (デフォルト設定)
構成の説明: すべての段落の連結を記事として使用し、太字の行を参照要約として使用します
データセットのサイズ:
531.56 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- 機能構造:
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
見出し | 文章 | ストリング | ||
文章 | 文章 | ストリング | ||
題名 | 文章 | ストリング |
- 例( tfds.as_dataframe ):
ウィキハウ/9月
構成の説明: 各段落とその要約を使用します。
データセットサイズ:
1.07 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- 機能構造:
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
見出し | 文章 | ストリング | ||
概要 | 文章 | ストリング | ||
セクション ラベル | 文章 | ストリング | ||
文章 | 文章 | ストリング | ||
題名 | 文章 | ストリング |
- 例( tfds.as_dataframe ):