- विवरण :
Corr2cause
कारणात्मक अनुमान मानव बुद्धि की पहचानों में से एक है।
Corr2cause 400K से अधिक नमूनों का एक बड़े पैमाने का डेटासेट है, जिस पर संबंधित पेपर में सत्रह मौजूदा एलएलएम का मूल्यांकन किया जाता है।
कुल मिलाकर, Corr2cause में 415,944 नमूने हैं, जिनमें 18.57% वैध नमूने हैं। परिसर की औसत लंबाई 424.11 टोकन है, और परिकल्पना 10.83 टोकन है। डेटा को क्रमशः 411,452 प्रशिक्षण नमूनों, 2,246 विकास और परीक्षण नमूनों में विभाजित किया गया है। चूंकि डेटासेट का मुख्य उद्देश्य एलएलएम के प्रदर्शन को बेंचमार्क करना है, इसलिए सभी आकार के ग्राफ़ पर व्यापक कवरेज के लिए परीक्षण और विकास सेट को प्राथमिकता दी गई है।
मुखपृष्ठ : https://github.com/causalNLP/corr2cause/tree/main
स्रोत कोड :
tfds.datasets.corr2cause.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
727.22 MiB
डेटासेट का आकार :
739.91 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'dev' | 2,246 |
'test' | 2,246 |
'train' | 411,452 |
- फ़ीचर संरचना :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
इनपुट | मूलपाठ | डोरी | ||
लेबल | टेन्सर | int64 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}