- Opis :
Corr2przyczyna
Wnioskowanie przyczynowe jest jedną z cech charakterystycznych ludzkiej inteligencji.
Corr2cause to wielkoskalowy zbiór danych obejmujący ponad 400 tys. próbek, na podstawie którego w powiązanym artykule ocenia się siedemnaście istniejących LLM.
Ogółem Corr2cause zawiera 415 944 próbek, z czego 18,57% to prawidłowe próbki. Średnia długość założenia wynosi 424,11 tokenów, a hipotezy 10,83 tokenów. Dane są podzielone odpowiednio na 411 452 próbek szkoleniowych, 2246 próbek rozwojowych i testowych. Ponieważ głównym celem zbioru danych jest porównanie wydajności LLM, zbiorom testowym i programistycznym nadano priorytet tak, aby obejmowały kompleksowo wykresy wszystkich rozmiarów.
Strona główna : https://github.com/causalNLP/corr2cause/tree/main
Kod źródłowy :
tfds.datasets.corr2cause.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza.
-
Rozmiar pobierania :
727.22 MiB
Rozmiar zbioru danych :
739.91 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'dev' | 2246 |
'test' | 2246 |
'train' | 411 452 |
- Struktura funkcji :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
wejście | Tekst | strunowy | ||
etykieta | Napinacz | int64 |
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}