corr2cause

  • Описание :

Corr2причина

Причинно-следственные выводы — одна из отличительных черт человеческого интеллекта.

Corr2cause — это крупномасштабный набор данных, содержащий более 400 тысяч образцов, на котором в соответствующей статье оцениваются семнадцать существующих LLM.

Всего Corr2cause содержит 415 944 образца, из которых 18,57% являются действительными. Средняя длина посылки составляет 424,11 токена, а гипотезы — 10,83 токена. Данные разделены на 411 452 обучающих выборки, 2246 разработок и тестовых выборок соответственно. Поскольку основной целью набора данных является оценка производительности LLM, приоритет отдается наборам для тестирования и разработки, чтобы они охватывали все размеры графиков.

Расколоть Примеры
'dev' 2246
'test' 2246
'train' 411 452
  • Структура функции :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
вход Текст нить
этикетка Тензор int64
  • Цитата :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}