- Описание :
Corr2причина
Причинно-следственные выводы — одна из отличительных черт человеческого интеллекта.
Corr2cause — это крупномасштабный набор данных, содержащий более 400 тысяч образцов, на котором в соответствующей статье оцениваются семнадцать существующих LLM.
Всего Corr2cause содержит 415 944 образца, из которых 18,57% являются действительными. Средняя длина посылки составляет 424,11 токена, а гипотезы — 10,83 токена. Данные разделены на 411 452 обучающих выборки, 2246 разработок и тестовых выборок соответственно. Поскольку основной целью набора данных является оценка производительности LLM, приоритет отдается наборам для тестирования и разработки, чтобы они охватывали все размеры графиков.
Домашняя страница : https://github.com/causalNLP/corr2cause/tree/main .
Исходный код :
tfds.datasets.corr2cause.Builder
.Версии :
-
1.0.0
(по умолчанию): первоначальный выпуск.
-
Размер загрузки :
727.22 MiB
Размер набора данных :
739.91 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'dev' | 2246 |
'test' | 2246 |
'train' | 411 452 |
- Структура функции :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
вход | Текст | нить | ||
этикетка | Тензор | int64 |
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}