- Mô tả :
Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://ai.google.com/research/NaturalQuestions/dataset
Mã nguồn :
tfds.datasets.natural_questions.Builder
Phiên bản :
-
0.0.2
: Không có ghi chú phát hành. -
0.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
41.97 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 307,373 |
'validation' | 7.830 |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (cấu hình mặc định)
Mô tả cấu hình : Cấu hình natural_questions mặc định
Kích thước tập dữ liệu :
90.26 GiB
Cấu trúc tính năng :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chú thích | Sự liên tiếp | |||
chú thích/id | tenxơ | sợi dây | ||
chú thích/long_answer | Tính năngDict | |||
chú thích/long_answer/end_byte | tenxơ | int64 | ||
chú thích/long_answer/end_token | tenxơ | int64 | ||
chú thích/long_answer/start_byte | tenxơ | int64 | ||
chú thích/long_answer/start_token | tenxơ | int64 | ||
chú thích/short_answers | Sự liên tiếp | |||
chú thích/short_answers/end_byte | tenxơ | int64 | ||
chú thích/short_answers/end_token | tenxơ | int64 | ||
chú thích/short_answers/start_byte | tenxơ | int64 | ||
chú thích/short_answers/start_token | tenxơ | int64 | ||
chú thích/short_answers/văn bản | Chữ | sợi dây | ||
chú thích/yes_no_answer | LớpNhãn | int64 | ||
tài liệu | Tính năngDict | |||
tài liệu/html | Chữ | sợi dây | ||
tiêu đề tài liệu | Chữ | sợi dây | ||
tài liệu/mã thông báo | Sự liên tiếp | |||
tài liệu/mã thông báo/is_html | tenxơ | bool | ||
tài liệu/mã thông báo/mã thông báo | Chữ | sợi dây | ||
tài liệu/url | Chữ | sợi dây | ||
nhận dạng | tenxơ | sợi dây | ||
câu hỏi | Tính năngDict | |||
câu hỏi/văn bản | Chữ | sợi dây | ||
câu hỏi/mã thông báo | Trình tự (Tensor) | (Không có,) | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
natural_questions/longt5
Mô tả cấu hình : natural_questions được xử lý trước như trong điểm chuẩn longT5
Kích thước tập dữ liệu :
8.91 GiB
Cấu trúc tính năng :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
all_answers | Trình tự (Văn bản) | (Không có,) | sợi dây | |
trả lời | Chữ | sợi dây | ||
bối cảnh | Chữ | sợi dây | ||
nhận dạng | Chữ | sợi dây | ||
câu hỏi | Chữ | sợi dây | ||
tiêu đề | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):