tydi_qa

  • Descrição :

TyDi QA é um conjunto de dados de resposta a perguntas que abrange 11 idiomas tipologicamente diversos com 204 mil pares de perguntas e respostas. Os idiomas do TyDi QA são diversos em relação à sua tipologia - o conjunto de recursos linguísticos que cada idioma expressa - de modo que esperamos que os modelos com bom desempenho nesse conjunto sejam generalizados em um grande número de idiomas no mundo. Ele contém fenômenos de linguagem que não seriam encontrados em corpora somente em inglês. Para fornecer uma tarefa de busca de informações realista e evitar efeitos de priming, as perguntas são escritas por pessoas que desejam saber a resposta, mas ainda não sabem a resposta (ao contrário do SQuAD e seus descendentes) e os dados são coletados diretamente em cada idioma sem o uso de tradução (ao contrário de MLQA e XQuAD).

Divisões de treinamento:

'train': Esta é a tarefa GoldP do documento TyDi QA original [ https://arxiv.org/abs/2003.05002 ] que possui dados de treinamento rotulados no idioma original.

'translate-train-*': essas divisões são as traduções automáticas do inglês para cada idioma de destino usadas nas linhas de base translate-train no documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Isso ignora propositalmente os dados de treinamento TyDiQA-GoldP não em inglês para simular o cenário de aprendizado de transferência em que os dados no idioma original não estão disponíveis e os construtores de sistemas devem confiar nos dados rotulados em inglês mais os sistemas de tradução automática existentes.

Normalmente, você deve usar a divisão train ou translate-train, mas não ambas.

Dividir Exemplos
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Estrutura de recursos :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
respostas Seqüência
respostas/resposta_início tensor int32
respostas/texto Texto corda
contexto Texto corda
Eu iria tensor corda
pergunta Texto corda
título Texto corda
  • Citação :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (configuração padrão)