- Descrizione :
Un nuovo set di dati di 7.787 domande scientifiche a scelta multipla a livello di scuola elementare, assemblate per incoraggiare la ricerca nella risposta avanzata alle domande. Il set di dati è suddiviso in un Challenge Set e un Easy Set, in cui il primo contiene solo domande a cui è stata data una risposta errata sia da un algoritmo basato sul recupero che da un algoritmo di co-occorrenza di parole. Stiamo anche includendo un corpus di oltre 14 milioni di frasi scientifiche rilevanti per l'attività e un'implementazione di tre modelli di base neurale per questo set di dati. Poniamo ARC come una sfida per la comunità.
Rispetto al set di dati originale, questo aggiunge frasi di contesto ottenute attraverso il recupero delle informazioni allo stesso modo di UnifiedQA (vedi: https://arxiv.org/abs/2005.00700 ).
Documentazione aggiuntiva : Esplora documenti con codice
Homepage : https://allenai.org/data/arc
Codice sorgente :
tfds.datasets.ai2_arc_with_ir.Builder
Versioni :
-
1.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
3.68 MiB
Auto-cache ( documentazione ): Sì
Struttura delle caratteristiche :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
tasto di risposta | ClassLabel | int64 | ||
scelte | Sequenza | |||
scelte/etichetta | ClassLabel | int64 | ||
scelte/testo | Testo | corda | ||
id | Testo | corda | ||
paragrafo | Testo | corda | ||
domanda | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (configurazione predefinita)
Descrizione della configurazione : Challenge Set di 2590 domande "difficili" (quelle a cui sia un metodo di recupero che un metodo di co-occorrenza non riescono a rispondere correttamente)
Dimensione del set di dati:
3.76 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Esempi ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Descrizione della configurazione : Easy Set di 5197 domande per la sfida ARC.
Dimensione del set di dati:
7.49 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Esempi ( tfds.as_dataframe ):