- Descrizione :
Il set di dati Schema-Guided Dialogue (SGD) è costituito da oltre 20.000 conversazioni multidominio annotate e orientate alle attività tra un essere umano e un assistente virtuale. Queste conversazioni comportano interazioni con servizi e API che coprono 20 domini, che vanno da banche ed eventi a media, calendario, viaggi e meteo. Per la maggior parte di questi domini, il set di dati contiene più API diverse, molte delle quali hanno funzionalità sovrapposte ma interfacce diverse, che riflettono scenari reali comuni. L'ampia gamma di annotazioni disponibili può essere utilizzata per la previsione dell'intento, il riempimento degli slot, il monitoraggio dello stato del dialogo, l'apprendimento dell'imitazione delle politiche, la generazione del linguaggio, l'apprendimento della simulazione dell'utente, tra le altre attività negli assistenti virtuali su larga scala. Oltre a questi, il set di dati ha domini e servizi invisibili nel set di valutazione per quantificare le prestazioni in impostazioni zero shot o pochi shot.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
Codice sorgente :
tfds.datasets.schema_guided_dialogue.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
35.12 MiB
Dimensione del set di dati:
25.36 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'dev' | 2.482 |
'test' | 4.201 |
'train' | 16.142 |
- Struttura delle caratteristiche :
FeaturesDict({
'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
'metadata': FeaturesDict({
'services': Sequence({
'name': string,
}),
}),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
primo_speaker | ClassLabel | int64 | ||
metadati | CaratteristicheDict | |||
metadati/servizi | Sequenza | |||
metadati/servizi/nome | Tensore | corda | ||
espressioni | Sequenza(Testo) | (Nessuno,) | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{rastogi2019towards,
title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
journal={arXiv preprint arXiv:1909.05855},
year={2019}
}