- Descrição :
Um novo conjunto de dados de 7.787 questões científicas genuínas de nível escolar, de múltipla escolha, reunidas para incentivar a pesquisa em respostas avançadas a perguntas. O conjunto de dados é particionado em um conjunto de desafio e um conjunto fácil, onde o primeiro contém apenas perguntas respondidas incorretamente por um algoritmo baseado em recuperação e um algoritmo de co-ocorrência de palavras. Também estamos incluindo um corpus de mais de 14 milhões de sentenças científicas relevantes para a tarefa e uma implementação de três modelos de linha de base neural para este conjunto de dados. Colocamos a ARC como um desafio para a comunidade.
Em comparação com o conjunto de dados original, isso adiciona frases de contexto obtidas por meio da recuperação de informações da mesma forma que o UnifiedQA (consulte: https://arxiv.org/abs/2005.00700 ).
Documentação Adicional : Explore em Papers With Code
Página inicial : https://allenai.org/data/arc
Código -fonte:
tfds.datasets.ai2_arc_with_ir.Builder
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
3.68 MiB
Cache automático ( documentação ): Sim
Estrutura de recursos :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
palavra chave | ClassLabel | int64 | ||
escolhas | Seqüência | |||
escolhas/rótulo | ClassLabel | int64 | ||
escolhas/texto | Texto | corda | ||
Eu iria | Texto | corda | ||
parágrafo | Texto | corda | ||
pergunta | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (configuração padrão)
Descrição da configuração : Conjunto de desafios com 2.590 perguntas "difíceis" (aquelas que tanto uma recuperação quanto um método de co-ocorrência falham em responder corretamente)
Tamanho do conjunto de dados :
3.76 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Exemplos ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Descrição da configuração : Fácil Conjunto de 5197 perguntas para o Desafio ARC.
Tamanho do conjunto de dados :
7.49 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Exemplos ( tfds.as_dataframe ):