- Descrição :
ASQA é o primeiro conjunto de dados de resposta a perguntas de formato longo que se concentra em questões factóides ambíguas. Diferente dos conjuntos de dados de respostas longas anteriores, cada pergunta é anotada com respostas longas e pares extrativos de perguntas e respostas, que devem ser respondidos pela passagem gerada. Uma resposta longa gerada será avaliada usando a precisão do ROUGE e do controle de qualidade. Mostramos que essas métricas de avaliação se correlacionam bem com o julgamento humano. Neste repositório lançamos o conjunto de dados ASQA, juntamente com o código de avaliação: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Página inicial : https://github.com/google-research/linguagem/tree/master/idioma/asqa
Código fonte :
tfds.datasets.asqa.Builder
Versões :
-
1.0.0
: Versão inicial. -
2.0.0
(padrão) : o ID da amostra vai de int32 (transbordante) para int64.
-
Tamanho do download :
17.86 MiB
Tamanho do conjunto de dados :
14.51 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Estrutura de recursos :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
pergunta_ambígua | Texto | corda | Pergunta desambiguada de AmbigQA. | |
anotações | Sequência | Respostas longas à pergunta ambígua construída pelos anotadores da ASQA. | ||
anotações/conhecimento | Sequência | Lista de peças de conhecimento adicionais. | ||
anotações/conhecimento/conteúdo | Texto | corda | Uma passagem da Wikipédia. | |
anotações/conhecimento/página wiki | Texto | corda | Título da página da Wikipédia da qual a passagem foi retirada. | |
anotações/resposta_longa | Texto | corda | Anotação. | |
qa_pairs | Sequência | Pares de perguntas e respostas do AmbigQA que são usados para desambiguação. | ||
qa_pairs/contexto | Texto | corda | Contexto adicional fornecido. | |
qa_pares/pergunta | Texto | corda | ||
qa_pairs/respostas_curtas | Sequência (Texto) | (Nenhum,) | corda | Lista de respostas curtas do AmbigQA. |
qa_pairs/wikipage | Texto | corda | Título da página da Wikipedia da qual o contexto adicional foi retirado. | |
amostra_id | Tensor | int64 | ||
páginas wiki | Sequência | Lista de páginas da Wikipedia visitadas por anotadores AmbigQA. | ||
wikipages/título | Texto | corda | Título da página da Wikipédia. | |
páginas wiki/url | Texto | corda | Link para a página da Wikipédia. |
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}