- Mô tả :
Bộ dữ liệu Đối thoại theo hướng dẫn giản đồ (SGD) bao gồm hơn 20 nghìn cuộc hội thoại theo định hướng nhiệm vụ, đa miền được chú thích giữa con người và trợ lý ảo. Những cuộc trò chuyện này liên quan đến tương tác với các dịch vụ và API trên 20 miền, từ ngân hàng và sự kiện đến phương tiện, lịch, du lịch và thời tiết. Đối với hầu hết các miền này, tập dữ liệu chứa nhiều API khác nhau, nhiều API trong số đó có các chức năng chồng chéo nhưng giao diện khác nhau, phản ánh các tình huống phổ biến trong thế giới thực. Một loạt các chú thích có sẵn có thể được sử dụng để dự đoán ý định, điền vào chỗ trống, theo dõi trạng thái đối thoại, học bắt chước chính sách, tạo ngôn ngữ, học mô phỏng người dùng, trong số các tác vụ khác trong trợ lý ảo quy mô lớn. Bên cạnh những điều này, bộ dữ liệu có các miền và dịch vụ không nhìn thấy được trong bộ đánh giá để định lượng hiệu suất trong cài đặt không chụp hoặc vài lần chụp.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
Mã nguồn :
tfds.datasets.schema_guided_dialogue.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
35.12 MiB
Kích thước tập dữ liệu :
25.36 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2,482 |
'test' | 4,201 |
'train' | 16,142 |
- Cấu trúc tính năng :
FeaturesDict({
'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
'metadata': FeaturesDict({
'services': Sequence({
'name': string,
}),
}),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
first_loa | LớpNhãn | int64 | ||
metadata | Tính năngDict | |||
siêu dữ liệu/dịch vụ | Sự nối tiếp | |||
siêu dữ liệu/dịch vụ/tên | tenxơ | chuỗi | ||
cách nói | Trình tự (Văn bản) | (Không có,) | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{rastogi2019towards,
title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
journal={arXiv preprint arXiv:1909.05855},
year={2019}
}