- Descripción :
Corr2causa
La inferencia causal es una de las características distintivas de la inteligencia humana.
Corr2cause es un conjunto de datos a gran escala de más de 400.000 muestras, en el que se evalúan diecisiete LLM existentes en el artículo relacionado.
En general, Corr2cause contiene 415.944 muestras, con un 18,57% de muestras válidas. La longitud promedio de la premisa es de 424,11 tokens y la de la hipótesis de 10,83 tokens. Los datos se dividen en 411.452 muestras de entrenamiento, 2.246 muestras de desarrollo y prueba, respectivamente. Dado que el objetivo principal del conjunto de datos es comparar el rendimiento de los LLM, se ha dado prioridad a los conjuntos de prueba y desarrollo para tener una cobertura integral de todos los tamaños de gráficos.
Página de inicio : https://github.com/causalNLP/corr2cause/tree/main
Código fuente :
tfds.datasets.corr2cause.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
727.22 MiB
Tamaño del conjunto de datos :
739.91 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'dev' | 2,246 |
'test' | 2,246 |
'train' | 411,452 |
- Estructura de características :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
aporte | Texto | cadena | ||
etiqueta | Tensor | int64 |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}