- Mô tả :
Corr2nguyên nhân
Suy luận nhân quả là một trong những đặc điểm nổi bật của trí thông minh con người.
Corr2 Cause là một tập dữ liệu quy mô lớn gồm hơn 400 nghìn mẫu, trên đó có 17 LLM hiện có được đánh giá trong bài báo liên quan.
Nhìn chung, Corr2 Cause chứa 415.944 mẫu, trong đó 18,57% là mẫu hợp lệ. Độ dài trung bình của tiền đề là 424,11 mã thông báo và giả thuyết là 10,83 mã thông báo. Dữ liệu được chia thành 411.452 mẫu đào tạo, 2.246 mẫu phát triển và mẫu thử nghiệm tương ứng. Vì mục đích chính của tập dữ liệu là đánh giá hiệu suất của LLM nên các bộ thử nghiệm và phát triển đã được ưu tiên để có phạm vi bao phủ toàn diện trên tất cả các kích thước của biểu đồ.
Trang chủ : https://github.com/causalNLP/corr2 Cause/ tree/main
Mã nguồn :
tfds.datasets.corr2cause.Builder
nhân.BuilderPhiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
727.22 MiB
Kích thước tập dữ liệu :
739.91 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'dev' | 2.246 |
'test' | 2.246 |
'train' | 411.452 |
- Cấu trúc tính năng :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
đầu vào | Chữ | sợi dây | ||
nhãn | Tenxơ | int64 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}