- 설명 :
Corr2원인
인과 추론은 인간 지능의 특징 중 하나입니다.
Corr2cause는 관련 논문에서 17개의 기존 LLM을 평가한 400,000개 이상의 샘플로 구성된 대규모 데이터 세트입니다.
전체적으로 Corr2cause에는 415,944개의 샘플이 포함되어 있으며 유효 샘플의 비율은 18.57%입니다. 전제의 평균 길이는 424.11 토큰, 가설 10.83 토큰입니다. 데이터는 각각 411,452개의 훈련 샘플, 2,246개의 개발 및 테스트 샘플로 분할됩니다. 데이터 세트의 주요 목적은 LLM의 성능을 벤치마킹하는 것이므로 테스트 및 개발 세트는 모든 크기의 그래프에 대해 포괄적인 적용 범위를 갖도록 우선순위가 지정되었습니다.
소스 코드 :
tfds.datasets.corr2cause.Builder
버전 :
-
1.0.0
(기본값): 최초 릴리스입니다.
-
다운로드 크기 :
727.22 MiB
데이터세트 크기 :
739.91 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'dev' | 2,246 |
'test' | 2,246 |
'train' | 411,452 |
- 기능 구조 :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
입력 | 텍스트 | 끈 | ||
상표 | 텐서 | 정수64 |
감독되는 키 (
as_supervised
doc 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}