- Descriptif :
Corr2cause
L’inférence causale est l’une des caractéristiques de l’intelligence humaine.
Corr2cause est un ensemble de données à grande échelle de plus de 400 000 échantillons, sur lequel dix-sept LLM existants sont évalués dans l'article correspondant.
Au total, Corr2cause contient 415 944 échantillons, dont 18,57 % d’échantillons valides. La longueur moyenne de la prémisse est de 424,11 jetons et celle de l'hypothèse de 10,83 jetons. Les données sont divisées en 411 452 échantillons d’entraînement, 2 246 échantillons de développement et de test, respectivement. Étant donné que l'objectif principal de l'ensemble de données est de comparer les performances des LLM, les ensembles de test et de développement ont été priorisés pour avoir une couverture complète sur toutes les tailles de graphiques.
Page d'accueil : https://github.com/causalNLP/corr2cause/tree/main
Code source :
tfds.datasets.corr2cause.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
727.22 MiB
Taille de l'ensemble de données :
739.91 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'dev' | 2 246 |
'test' | 2 246 |
'train' | 411 452 |
- Structure des fonctionnalités :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
saisir | Texte | chaîne | ||
étiquette | Tenseur | int64 |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}