- Descrizione :
TyDi QA è un set di dati di risposta alle domande che copre 11 lingue tipologicamente diverse con 204.000 coppie domanda-risposta. Le lingue di TyDi QA sono diverse per quanto riguarda la loro tipologia - l'insieme di caratteristiche linguistiche che ogni lingua esprime - in modo tale che ci aspettiamo che i modelli che funzionano bene su questo set si generalizzino in un gran numero di lingue nel mondo. Contiene fenomeni linguistici che non si troverebbero nei corpora solo in inglese. Per fornire un compito realistico di ricerca di informazioni ed evitare effetti di priming, le domande sono scritte da persone che vogliono conoscere la risposta, ma non conoscono ancora la risposta (a differenza di SQuAD e dei suoi discendenti) e i dati vengono raccolti direttamente in ogni lingua senza l'uso della traduzione (a differenza di MLQA e XQuAD).
Divisioni di allenamento:
'train': questa è l'attività GoldP del documento QA TyDi originale [ https://arxiv.org/abs/2003.05002 ] che contiene dati di addestramento etichettati nella lingua originale.
'translate-train-*': queste suddivisioni sono le traduzioni automatiche dall'inglese a ciascuna lingua di destinazione utilizzate nelle linee di base translate-train nel documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Ciò ignora intenzionalmente i dati di addestramento TyDiQA-GoldP non in inglese per simulare lo scenario di trasferimento dell'apprendimento in cui i dati in lingua originale non sono disponibili e i costruttori di sistemi devono fare affidamento su dati in inglese etichettati oltre ai sistemi di traduzione automatica esistenti.
In genere, dovresti usare OPPURE la suddivisione train o translate-train, ma non entrambe.
Documentazione aggiuntiva : Esplora documenti con codice
Descrizione della configurazione : attività passaggio Gold (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Home page : https://github.com/google-research-datasets/tydiqa
Codice sorgente :
tfds.question_answering.TydiQA
Versioni :
-
3.0.0
(predefinito): risolve il problema con una serie di esempi in cui gli intervalli di risposta sono disallineati a causa della rimozione degli spazi bianchi nel contesto. Questa modifica ha un impatto su circa il 25% degli esempi di addestramento e sviluppo.
-
Dimensione del download :
121.30 MiB
Dimensione del set di dati:
98.35 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 49.881 |
'translate-train-ar' | 3.661 |
'translate-train-bn' | 3.585 |
'translate-train-fi' | 3.670 |
'translate-train-id' | 3.667 |
'translate-train-ko' | 3.607 |
'translate-train-ru' | 3.394 |
'translate-train-sw' | 3.622 |
'translate-train-te' | 3.658 |
'validation' | 5.077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Struttura delle caratteristiche :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
risposte | Sequenza | |||
risposte/risposta_inizio | Tensore | int32 | ||
risposte/testo | Testo | corda | ||
contesto | Testo | corda | ||
id | Tensore | corda | ||
domanda | Testo | corda | ||
titolo | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}