sci_tail

  • Mô tả :

Bộ dữ liệu SciTail là một bộ dữ liệu đòi hỏi được tạo từ các bài kiểm tra khoa học trắc nghiệm và các câu trên web. Mỗi câu hỏi và lựa chọn câu trả lời đúng được chuyển đổi thành một tuyên bố khẳng định để hình thành giả thuyết. Truy xuất thông tin được sử dụng để lấy văn bản có liên quan từ một kho văn bản lớn gồm các câu trên web và những câu này được sử dụng làm tiền đề P. Chú thích của cặp tiền đề-giả thuyết đó được cung cấp từ cộng đồng dưới dạng hỗ trợ (đòi hỏi) hoặc không (trung lập), theo thứ tự để tạo bộ dữ liệu SciTail. Bộ dữ liệu chứa 27.026 ví dụ với 10.101 ví dụ có nhãn đòi hỏi và 16.925 ví dụ có nhãn trung tính.

Tách ra ví dụ
'test' 2.126
'train' 23,097
'validation' 1.304
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
giả thuyết Chữ chuỗi
nhãn mác LớpNhãn int64
tiền đề Chữ chuỗi
  • trích dẫn :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}