- 説明:
Schema-Guided Dialogue (SGD) データセットは、人間と仮想アシスタントの間の 20,000 を超える注釈付きマルチドメインのタスク指向の会話で構成されています。これらの会話には、銀行やイベントからメディア、カレンダー、旅行、天気に至るまで、20 のドメインにわたるサービスや API とのやり取りが含まれます。これらのドメインのほとんどで、データセットには複数の異なる API が含まれており、その多くは機能が重複していますが、インターフェイスは異なり、一般的な現実のシナリオを反映しています。利用可能な幅広いアノテーションは、大規模な仮想アシスタントの他のタスクの中でも特に、意図予測、スロット充填、対話状態追跡、ポリシー模倣学習、言語生成、ユーザー シミュレーション学習に使用できます。これらに加えて、データセットには、ゼロ ショットまたは少数のショット設定でのパフォーマンスを定量化するための評価セット内の目に見えないドメインとサービスがあります。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
35.12 MiB
データセットのサイズ:
25.36 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,482 |
'test' | 4,201 |
'train' | 16,142 |
- 機能構造:
FeaturesDict({
'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
'metadata': FeaturesDict({
'services': Sequence({
'name': string,
}),
}),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
最初のスピーカー | クラスラベル | int64 | ||
メタデータ | 特徴辞書 | |||
メタデータ/サービス | 順序 | |||
メタデータ/サービス/名前 | テンソル | ストリング | ||
発話 | シーケンス(テキスト) | (なし、) | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{rastogi2019towards,
title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
journal={arXiv preprint arXiv:1909.05855},
year={2019}
}