tydi_qa

  • Descrizione :

TyDi QA è un set di dati di risposta alle domande che copre 11 lingue tipologicamente diverse con 204.000 coppie domanda-risposta. Le lingue di TyDi QA sono diverse per quanto riguarda la loro tipologia - l'insieme di caratteristiche linguistiche che ogni lingua esprime - in modo tale che ci aspettiamo che i modelli che funzionano bene su questo set si generalizzino in un gran numero di lingue nel mondo. Contiene fenomeni linguistici che non si troverebbero nei corpora solo in inglese. Per fornire un compito realistico di ricerca di informazioni ed evitare effetti di priming, le domande sono scritte da persone che vogliono conoscere la risposta, ma non conoscono ancora la risposta (a differenza di SQuAD e dei suoi discendenti) e i dati vengono raccolti direttamente in ogni lingua senza l'uso della traduzione (a differenza di MLQA e XQuAD).

Divisioni di allenamento:

'train': questa è l'attività GoldP del documento QA TyDi originale [ https://arxiv.org/abs/2003.05002 ] che contiene dati di addestramento etichettati nella lingua originale.

'translate-train-*': queste suddivisioni sono le traduzioni automatiche dall'inglese a ciascuna lingua di destinazione utilizzate nelle linee di base translate-train nel documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Ciò ignora intenzionalmente i dati di addestramento TyDiQA-GoldP non in inglese per simulare lo scenario di trasferimento dell'apprendimento in cui i dati in lingua originale non sono disponibili e i costruttori di sistemi devono fare affidamento su dati in inglese etichettati oltre ai sistemi di traduzione automatica esistenti.

In genere, dovresti usare OPPURE la suddivisione train o translate-train, ma non entrambe.

Diviso Esempi
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Struttura delle caratteristiche :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
risposte Sequenza
risposte/risposta_inizio Tensore int32
risposte/testo Testo corda
contesto Testo corda
id Tensore corda
domanda Testo corda
titolo Testo corda
  • Citazione :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (configurazione predefinita)