corr2cause

  • विवरण :

Corr2cause

कारणात्मक अनुमान मानव बुद्धि की पहचानों में से एक है।

Corr2cause 400K से अधिक नमूनों का एक बड़े पैमाने का डेटासेट है, जिस पर संबंधित पेपर में सत्रह मौजूदा एलएलएम का मूल्यांकन किया जाता है।

कुल मिलाकर, Corr2cause में 415,944 नमूने हैं, जिनमें 18.57% वैध नमूने हैं। परिसर की औसत लंबाई 424.11 टोकन है, और परिकल्पना 10.83 टोकन है। डेटा को क्रमशः 411,452 प्रशिक्षण नमूनों, 2,246 विकास और परीक्षण नमूनों में विभाजित किया गया है। चूंकि डेटासेट का मुख्य उद्देश्य एलएलएम के प्रदर्शन को बेंचमार्क करना है, इसलिए सभी आकार के ग्राफ़ पर व्यापक कवरेज के लिए परीक्षण और विकास सेट को प्राथमिकता दी गई है।

विभाजित करना उदाहरण
'dev' 2,246
'test' 2,246
'train' 411,452
  • फ़ीचर संरचना :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
इनपुट मूलपाठ डोरी
लेबल टेन्सर int64
  • उद्धरण :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}