schema_guided_dialogue

  • Mô tả :

Bộ dữ liệu Đối thoại theo hướng dẫn giản đồ (SGD) bao gồm hơn 20 nghìn cuộc hội thoại theo định hướng nhiệm vụ, đa miền được chú thích giữa con người và trợ lý ảo. Những cuộc trò chuyện này liên quan đến tương tác với các dịch vụ và API trên 20 miền, từ ngân hàng và sự kiện đến phương tiện, lịch, du lịch và thời tiết. Đối với hầu hết các miền này, tập dữ liệu chứa nhiều API khác nhau, nhiều API trong số đó có các chức năng chồng chéo nhưng giao diện khác nhau, phản ánh các tình huống phổ biến trong thế giới thực. Một loạt các chú thích có sẵn có thể được sử dụng để dự đoán ý định, điền vào chỗ trống, theo dõi trạng thái đối thoại, học bắt chước chính sách, tạo ngôn ngữ, học mô phỏng người dùng, trong số các tác vụ khác trong trợ lý ảo quy mô lớn. Bên cạnh những điều này, bộ dữ liệu có các miền và dịch vụ không nhìn thấy được trong bộ đánh giá để định lượng hiệu suất trong cài đặt không chụp hoặc vài lần chụp.

Tách ra ví dụ
'dev' 2,482
'test' 4,201
'train' 16,142
  • Cấu trúc tính năng :
FeaturesDict({
    'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'metadata': FeaturesDict({
        'services': Sequence({
            'name': string,
        }),
    }),
    'utterances': Sequence(Text(shape=(), dtype=string)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
first_loa LớpNhãn int64
metadata Tính năngDict
siêu dữ liệu/dịch vụ Sự nối tiếp
siêu dữ liệu/dịch vụ/tên tenxơ chuỗi
cách nói Trình tự (Văn bản) (Không có,) chuỗi
  • trích dẫn :
@article{rastogi2019towards,
  title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal={arXiv preprint arXiv:1909.05855},
  year={2019}
}