- 説明:
WikiDialog は、総合的に生成された情報探索会話の大規模なデータセットです。データセット内の各会話には、英語版ウィキペディアの一節に基づいた 2 人の話者が含まれています。もう 1 つの話者は、大規模な言語モデルによって生成されます。
構成の説明: OR-QuAC および QReCC で微調整されたダイアログ インペインターから生成された WikiDialog。
OQ
は OR-QuAC と QReCC の略です。ホームページ: https://github.com/google-research/dialog-inpainting#wikidialog-oq
ソース コード:
tfds.text.wiki_dialog.WikiDialog
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
7.04 GiB
データセットサイズ:
36.58 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- 機能構造:
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
著者番号 | シーケンス(テンソル) | (なし、) | int32 | |
通路 | 文章 | ストリング | ||
ピッド | 文章 | ストリング | ||
文章 | シーケンス(テキスト) | (なし、) | ストリング | |
題名 | 文章 | ストリング | ||
発話 | シーケンス(テキスト) | (なし、) | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}