- 설명 :
SGD(Schema-Guided Dialogue) 데이터 세트는 인간과 가상 비서 간의 20,000개 이상의 주석이 달린 다중 도메인 작업 지향 대화로 구성됩니다. 이러한 대화에는 은행 및 이벤트에서 미디어, 일정, 여행 및 날씨에 이르기까지 20개 도메인에 걸친 서비스 및 API와의 상호 작용이 포함됩니다. 대부분의 이러한 도메인에 대해 데이터 세트에는 다양한 API가 포함되어 있으며 그 중 다수는 기능이 겹치지만 일반적인 실제 시나리오를 반영하는 인터페이스가 다릅니다. 사용 가능한 광범위한 주석은 의도 예측, 슬롯 채우기, 대화 상태 추적, 정책 모방 학습, 언어 생성, 사용자 시뮬레이션 학습 등 대규모 가상 비서의 다른 작업에 사용할 수 있습니다. 이 외에도 데이터 세트에는 제로 샷 또는 몇 가지 샷 설정에서 성능을 정량화하기 위해 평가 세트에 보이지 않는 도메인과 서비스가 있습니다.
홈페이지 : https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
35.12 MiB
데이터 세트 크기 :
25.36 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'dev' | 2,482 |
'test' | 4,201 |
'train' | 16,142 |
- 기능 구조 :
FeaturesDict({
'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
'metadata': FeaturesDict({
'services': Sequence({
'name': string,
}),
}),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
첫 번째 스피커 | 클래스 레이블 | int64 | ||
메타데이터 | 풍모Dict | |||
메타데이터/서비스 | 순서 | |||
메타데이터/서비스/이름 | 텐서 | 끈 | ||
발화 | 시퀀스(텍스트) | (없음,) | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{rastogi2019towards,
title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
journal={arXiv preprint arXiv:1909.05855},
year={2019}
}