schema_guided_dialogue

  • 설명 :

SGD(Schema-Guided Dialogue) 데이터 세트는 인간과 가상 비서 간의 20,000개 이상의 주석이 달린 다중 도메인 작업 지향 대화로 구성됩니다. 이러한 대화에는 은행 및 이벤트에서 미디어, 일정, 여행 및 날씨에 이르기까지 20개 도메인에 걸친 서비스 및 API와의 상호 작용이 포함됩니다. 대부분의 이러한 도메인에 대해 데이터 세트에는 다양한 API가 포함되어 있으며 그 중 다수는 기능이 겹치지만 일반적인 실제 시나리오를 반영하는 인터페이스가 다릅니다. 사용 가능한 광범위한 주석은 의도 예측, 슬롯 채우기, 대화 상태 추적, 정책 모방 학습, 언어 생성, 사용자 시뮬레이션 학습 등 대규모 가상 비서의 다른 작업에 사용할 수 있습니다. 이 외에도 데이터 세트에는 제로 샷 또는 몇 가지 샷 설정에서 성능을 정량화하기 위해 평가 세트에 보이지 않는 도메인과 서비스가 있습니다.

나뉘다
'dev' 2,482
'test' 4,201
'train' 16,142
  • 기능 구조 :
FeaturesDict({
    'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'metadata': FeaturesDict({
        'services': Sequence({
            'name': string,
        }),
    }),
    'utterances': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
첫 번째 스피커 클래스 레이블 int64
메타데이터 풍모Dict
메타데이터/서비스 순서
메타데이터/서비스/이름 텐서
발화 시퀀스(텍스트) (없음,)
  • 인용 :
@article{rastogi2019towards,
  title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal={arXiv preprint arXiv:1909.05855},
  year={2019}
}