- Mô tả :
Bộ dữ liệu SciTail là một bộ dữ liệu đòi hỏi được tạo từ các bài kiểm tra khoa học trắc nghiệm và các câu trên web. Mỗi câu hỏi và lựa chọn câu trả lời đúng được chuyển đổi thành một tuyên bố khẳng định để hình thành giả thuyết. Truy xuất thông tin được sử dụng để lấy văn bản có liên quan từ một kho văn bản lớn gồm các câu trên web và những câu này được sử dụng làm tiền đề P. Chú thích của cặp tiền đề-giả thuyết đó được cung cấp từ cộng đồng dưới dạng hỗ trợ (đòi hỏi) hoặc không (trung lập), theo thứ tự để tạo bộ dữ liệu SciTail. Bộ dữ liệu chứa 27.026 ví dụ với 10.101 ví dụ có nhãn đòi hỏi và 16.925 ví dụ có nhãn trung tính.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://allenai.org/data/scitail
Mã nguồn :
tfds.datasets.sci_tail.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
13.52 MiB
Kích thước tập dữ liệu :
6.01 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.126 |
'train' | 23,097 |
'validation' | 1.304 |
- Cấu trúc tính năng :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
giả thuyết | Chữ | chuỗi | ||
nhãn mác | LớpNhãn | int64 | ||
tiền đề | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}