- Sự miêu tả :
ASQA là tập dữ liệu trả lời câu hỏi dạng dài đầu tiên tập trung vào các câu hỏi thực tế mơ hồ. Khác với các tập dữ liệu câu trả lời dạng dài trước đây, mỗi câu hỏi được chú thích bằng cả câu trả lời dạng dài và cặp câu hỏi-câu trả lời trích xuất, mà đoạn văn được tạo sẽ có thể trả lời được. Câu trả lời dạng dài được tạo sẽ được đánh giá bằng cả độ chính xác ROUGE và QA. Chúng tôi đã chỉ ra rằng những thước đo đánh giá này có mối tương quan tốt với khả năng phán đoán của con người. Trong kho lưu trữ này, chúng tôi phát hành tập dữ liệu ASQA cùng với mã đánh giá: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Trang chủ : https://github.com/google-research/lingu/tree/master/lingu/asqa
Mã nguồn :
tfds.datasets.asqa.Builder
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
2.0.0
(mặc định) : ID mẫu chuyển từ int32 (tràn) sang int64.
-
Kích thước tải xuống :
17.86 MiB
Kích thước tập dữ liệu :
14.51 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Cấu trúc tính năng :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
câu hỏi mơ hồ | Chữ | sợi dây | Câu hỏi định hướng từ AmbigQA. | |
chú thích | Sự liên tiếp | Câu trả lời dài cho câu hỏi mơ hồ do người chú thích ASQA xây dựng. | ||
chú thích/kiến thức | Sự liên tiếp | Danh sách các phần kiến thức bổ sung | ||
chú thích/kiến thức/nội dung | Chữ | sợi dây | Một đoạn trích từ Wikipedia. | |
chú thích/kiến thức/trang wiki | Chữ | sợi dây | Tiêu đề của trang Wikipedia mà đoạn văn được lấy từ đó. | |
chú thích/long_answer | Chữ | sợi dây | Chú thích. | |
qa_pairs | Sự liên tiếp | Các cặp câu hỏi và trả lời từ AmbigQA được sử dụng để định hướng. | ||
qa_pairs/bối cảnh | Chữ | sợi dây | Bối cảnh bổ sung được cung cấp. | |
qa_pairs/câu hỏi | Chữ | sợi dây | ||
qa_pairs/short_answers | Trình tự(Văn bản) | (Không có,) | sợi dây | Danh sách các câu trả lời ngắn từ AmbigQA. |
qa_pairs/trang wiki | Chữ | sợi dây | Tiêu đề của trang Wikipedia mà ngữ cảnh bổ sung được lấy từ đó. | |
mẫu_id | Tenxơ | int64 | ||
trang wiki | Sự liên tiếp | Danh sách các trang Wikipedia được người chú thích AmbigQA truy cập. | ||
trang wiki/tiêu đề | Chữ | sợi dây | Tiêu đề của trang Wikipedia. | |
trang wiki/url | Chữ | sợi dây | Liên kết đến trang Wikipedia. |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}