- Descrição :
TyDi QA é um conjunto de dados de resposta a perguntas que abrange 11 idiomas tipologicamente diversos com 204 mil pares de perguntas e respostas. Os idiomas do TyDi QA são diversos em relação à sua tipologia - o conjunto de recursos linguísticos que cada idioma expressa - de modo que esperamos que os modelos com bom desempenho nesse conjunto sejam generalizados em um grande número de idiomas no mundo. Ele contém fenômenos de linguagem que não seriam encontrados em corpora somente em inglês. Para fornecer uma tarefa de busca de informações realista e evitar efeitos de priming, as perguntas são escritas por pessoas que desejam saber a resposta, mas ainda não sabem a resposta (ao contrário do SQuAD e seus descendentes) e os dados são coletados diretamente em cada idioma sem o uso de tradução (ao contrário de MLQA e XQuAD).
Divisões de treinamento:
'train': Esta é a tarefa GoldP do documento TyDi QA original [ https://arxiv.org/abs/2003.05002 ] que possui dados de treinamento rotulados no idioma original.
'translate-train-*': essas divisões são as traduções automáticas do inglês para cada idioma de destino usadas nas linhas de base translate-train no documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Isso ignora propositalmente os dados de treinamento TyDiQA-GoldP não em inglês para simular o cenário de aprendizado de transferência em que os dados no idioma original não estão disponíveis e os construtores de sistemas devem confiar nos dados rotulados em inglês mais os sistemas de tradução automática existentes.
Normalmente, você deve usar a divisão train ou translate-train, mas não ambas.
Documentação Adicional : Explore em Papers With Code
Descrição da configuração : Tarefa Gold passage (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Página inicial : https://github.com/google-research-datasets/tydiqa
Código -fonte:
tfds.question_answering.TydiQA
Versões :
-
3.0.0
(padrão): Corrige o problema com vários exemplos em que os intervalos de resposta estão desalinhados devido à remoção de espaço em branco do contexto. Essa mudança afeta aproximadamente 25% dos exemplos de treinamento e desenvolvimento.
-
Tamanho do download :
121.30 MiB
Tamanho do conjunto de dados :
98.35 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 49.881 |
'translate-train-ar' | 3.661 |
'translate-train-bn' | 3.585 |
'translate-train-fi' | 3.670 |
'translate-train-id' | 3.667 |
'translate-train-ko' | 3.607 |
'translate-train-ru' | 3.394 |
'translate-train-sw' | 3.622 |
'translate-train-te' | 3.658 |
'validation' | 5.077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Estrutura de recursos :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
respostas | Seqüência | |||
respostas/resposta_início | tensor | int32 | ||
respostas/texto | Texto | corda | ||
contexto | Texto | corda | ||
Eu iria | tensor | corda | ||
pergunta | Texto | corda | ||
título | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}