- Descrizione :
Un nuovo set di dati di 7.787 domande scientifiche a scelta multipla a livello di scuola elementare, assemblate per incoraggiare la ricerca nella risposta avanzata alle domande. Il set di dati è suddiviso in un Challenge Set e un Easy Set, in cui il primo contiene solo domande a cui è stata data una risposta errata sia da un algoritmo basato sul recupero che da un algoritmo di co-occorrenza di parole. Stiamo anche includendo un corpus di oltre 14 milioni di frasi scientifiche rilevanti per l'attività e un'implementazione di tre modelli di base neurale per questo set di dati. Poniamo ARC come una sfida per la comunità.
Homepage : https://allenai.org/data/arc
Codice sorgente :
tfds.datasets.ai2_arc.Builder
Versioni :
-
1.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
649.30 MiB
Auto-cache ( documentazione ): Sì
Struttura delle caratteristiche :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
tasto di risposta | ClassLabel | int64 | ||
scelte | Sequenza | |||
scelte/etichetta | ClassLabel | int64 | ||
scelte/testo | Testo | corda | ||
id | Testo | corda | ||
domanda | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
ai2_arc/ARC-Challenge (configurazione predefinita)
Descrizione della configurazione : Challenge Set di 2590 domande "difficili" (quelle a cui sia un metodo di recupero che un metodo di co-occorrenza non riescono a rispondere correttamente)
Dimensione del set di dati:
939.91 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Esempi ( tfds.as_dataframe ):
ai2_arc/ARC-Facile
Descrizione della configurazione : Easy Set di 5197 domande per la sfida ARC.
Dimensione del set di dati:
1.63 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Esempi ( tfds.as_dataframe ):