- Mô tả :
Một bộ dữ liệu mới gồm 7.787 câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu về cách trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Chúng tôi cũng bao gồm một kho dữ liệu gồm hơn 14 triệu câu khoa học liên quan đến nhiệm vụ và triển khai ba mô hình cơ sở thần kinh cho bộ dữ liệu này. Chúng tôi đặt ARC như một thách thức đối với cộng đồng.
So với tập dữ liệu gốc, điều này bổ sung thêm các câu ngữ cảnh thu được thông qua truy xuất thông tin theo cách tương tự như UnifiedQA (xem: https://arxiv.org/abs/2005.00700 ).
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://allenai.org/data/arc
Mã nguồn :
tfds.datasets.ai2_arc_with_ir.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
3.68 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Cấu trúc tính năng :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
câu trả lờiKey | LớpNhãn | int64 | ||
lựa chọn | Sự phối hợp | |||
lựa chọn/nhãn | LớpNhãn | int64 | ||
lựa chọn/văn bản | Chữ | sợi dây | ||
Tôi | Chữ | sợi dây | ||
đoạn văn | Chữ | sợi dây | ||
câu hỏi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (cấu hình mặc định)
Mô tả cấu hình : Bộ thử thách gồm 2590 câu hỏi "khó" (những câu hỏi mà cả phương pháp truy xuất và phương pháp cùng xuất hiện đều không trả lời đúng)
Kích thước tập dữ liệu :
3.76 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Ví dụ ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Mô tả cấu hình : Bộ dễ gồm 5197 câu hỏi cho Thử thách ARC.
Kích thước tập dữ liệu :
7.49 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Ví dụ ( tfds.as_dataframe ):