corr2cause

  • Descrizione :

Corr2causa

L’inferenza causale è uno dei tratti distintivi dell’intelligenza umana.

Corr2cause è un set di dati su larga scala di oltre 400.000 campioni, su cui vengono valutati diciassette LLM esistenti nel documento correlato.

Nel complesso, Corr2cause contiene 415.944 campioni, di cui il 18,57% costituito da campioni validi. La lunghezza media della premessa è di 424,11 token e l'ipotesi di 10,83 token. I dati sono suddivisi rispettivamente in 411.452 campioni di training e 2.246 campioni di sviluppo e test. Poiché lo scopo principale del set di dati è quello di valutare le prestazioni degli LLM, ai set di test e sviluppo è stata data la priorità per avere una copertura completa su grafici di tutte le dimensioni.

Diviso Esempi
'dev' 2.246
'test' 2.246
'train' 411.452
  • Struttura delle caratteristiche :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ingresso Testo corda
etichetta Tensore int64
  • Citazione :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}