corr2cause

  • الوصف :

Corr2cause

الاستدلال السببي هو أحد السمات المميزة للذكاء البشري.

Corr2cause عبارة عن مجموعة بيانات واسعة النطاق تضم أكثر من 400 ألف عينة، حيث تم تقييم سبعة عشر ماجستيرًا في القانون الحالي في الورقة ذات الصلة.

بشكل عام، يحتوي Corr2cause على 415,944 عينة، بنسبة 18.57% في العينات الصالحة. متوسط ​​طول الفرضية هو 424.11 رمزًا، والفرضية 10.83 رمزًا. تم تقسيم البيانات إلى 411,452 عينة تدريب، و2,246 عينة تطوير واختبار، على التوالي. نظرًا لأن الغرض الرئيسي من مجموعة البيانات هو قياس أداء LLMs، فقد تم إعطاء الأولوية لمجموعات الاختبار والتطوير للحصول على تغطية شاملة لجميع أحجام الرسوم البيانية.

ينقسم أمثلة
'dev' 2,246
'test' 2,246
'train' 411,452
  • هيكل الميزة :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
مدخل نص خيط
ملصق الموتر int64
  • الاقتباس :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}