corr2cause

  • 설명 :

Corr2원인

인과 추론은 인간 지능의 특징 중 하나입니다.

Corr2cause는 관련 논문에서 17개의 기존 LLM을 평가한 400,000개 이상의 샘플로 구성된 대규모 데이터 세트입니다.

전체적으로 Corr2cause에는 415,944개의 샘플이 포함되어 있으며 유효 샘플의 비율은 18.57%입니다. 전제의 평균 길이는 424.11 토큰, 가설 10.83 토큰입니다. 데이터는 각각 411,452개의 훈련 샘플, 2,246개의 개발 및 테스트 샘플로 분할됩니다. 데이터 세트의 주요 목적은 LLM의 성능을 벤치마킹하는 것이므로 테스트 및 개발 세트는 모든 크기의 그래프에 대해 포괄적인 적용 범위를 갖도록 우선순위가 지정되었습니다.

나뉘다
'dev' 2,246
'test' 2,246
'train' 411,452
  • 기능 구조 :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
입력 텍스트
상표 텐서 정수64
  • 인용 :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}