- Descrizione :
Corr2causa
L’inferenza causale è uno dei tratti distintivi dell’intelligenza umana.
Corr2cause è un set di dati su larga scala di oltre 400.000 campioni, su cui vengono valutati diciassette LLM esistenti nel documento correlato.
Nel complesso, Corr2cause contiene 415.944 campioni, di cui il 18,57% costituito da campioni validi. La lunghezza media della premessa è di 424,11 token e l'ipotesi di 10,83 token. I dati sono suddivisi rispettivamente in 411.452 campioni di training e 2.246 campioni di sviluppo e test. Poiché lo scopo principale del set di dati è quello di valutare le prestazioni degli LLM, ai set di test e sviluppo è stata data la priorità per avere una copertura completa su grafici di tutte le dimensioni.
Home page : https://github.com/causalNLP/corr2cause/tree/main
Codice sorgente :
tfds.datasets.corr2cause.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione download :
727.22 MiB
Dimensione del set di dati :
739.91 MiB
Memorizzazione nella cache automatica ( documentazione ): No
Divide :
Diviso | Esempi |
---|---|
'dev' | 2.246 |
'test' | 2.246 |
'train' | 411.452 |
- Struttura delle caratteristiche :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
ingresso | Testo | corda | ||
etichetta | Tensore | int64 |
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}