- विवरण :
SciTail डेटासेट बहुविकल्पी विज्ञान परीक्षाओं और वेब वाक्यों से निर्मित एक प्रवेश डेटासेट है। परिकल्पना बनाने के लिए प्रत्येक प्रश्न और सही उत्तर विकल्प को एक मुखर कथन में परिवर्तित किया जाता है। सूचना पुनर्प्राप्ति का उपयोग वेब वाक्यों के एक बड़े टेक्स्ट कॉर्पस से प्रासंगिक पाठ प्राप्त करने के लिए किया जाता है, और इन वाक्यों को एक आधार पी के रूप में उपयोग किया जाता है। इस तरह के आधार-परिकल्पना जोड़ी का एनोटेशन क्रम में समर्थन (प्रवेश) या नहीं (तटस्थ) के रूप में क्राउडसोर्स किया जाता है। साइटेल डेटासेट बनाने के लिए। डेटासेट में 27,026 उदाहरण हैं जिनमें 10,101 उदाहरण शामिल हैं और 16,925 उदाहरण तटस्थ लेबल के साथ हैं।
होमपेज : https://allenai.org/data/scitail
स्रोत कोड :
tfds.datasets.sci_tail.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
13.52 MiB
डेटासेट का आकार :
6.01 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,126 |
'train' | 23,097 |
'validation' | 1,304 |
- फ़ीचर संरचना :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
परिकल्पना | मूलपाठ | डोरी | ||
लेबल | क्लासलेबल | int64 | ||
आधार | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}