- Mô tả :
WikiDialog là một bộ dữ liệu lớn về các cuộc hội thoại tìm kiếm thông tin được tạo ra một cách tổng hợp. Mỗi cuộc hội thoại trong bộ dữ liệu chứa hai diễn giả dựa trên một đoạn văn từ Wikipedia tiếng Anh: lời phát biểu của một diễn giả bao gồm các câu chính xác trong đoạn văn; người nói khác được tạo ra bởi một mô hình ngôn ngữ lớn.
Mô tả cấu hình : WikiDialog được tạo từ hộp thoại inpainter được tinh chỉnh trên OR-QuAC và QReCC.
OQ
là viết tắt của OR-QuAC và QReCC.Trang chủ : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Mã nguồn :
tfds.text.wiki_dialog.WikiDialog
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
7.04 GiB
Kích thước tập dữ liệu:
36.58 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 11.264.129 |
'validation' | 113,822 |
- Cấu trúc tính năng :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tác giả_num | Trình tự (Tensor) | (Không có,) | int32 | |
đoạn văn | Chữ | sợi dây | ||
pid | Chữ | sợi dây | ||
câu | Trình tự (Văn bản) | (Không có,) | sợi dây | |
Tiêu đề | Chữ | sợi dây | ||
cách nói | Trình tự (Văn bản) | (Không có,) | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}