- Descrizione :
XQuAD (Cross-lingual Question Answering Dataset) è un set di dati di riferimento per la valutazione delle prestazioni di risposta alle domande in più lingue. Il set di dati è costituito da un sottoinsieme di 240 paragrafi e 1190 coppie domanda-risposta dal set di sviluppo di SQuAD v1.1 (Rajpurkar et al., 2016) insieme alle loro traduzioni professionali in dieci lingue: spagnolo, tedesco, greco, russo, turco , arabo, vietnamita, tailandese, cinese e hindi. Di conseguenza, il set di dati è interamente parallelo in 11 lingue. Per eseguire XQuAD nell'impostazione zero-shot predefinita, utilizzare i dati di addestramento e convalida SQuAD v1.1 qui: https://www.tensorflow.org/datasets/catalog/squad
Includiamo anche le divisioni "translate-train", "translate-dev" e "translate-test" per ogni lingua diversa dall'inglese da XTREME (Hu et al., 2020). Questi possono essere usati per eseguire XQuAD nelle impostazioni "translate-train" o "translate-test".
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/deepmind/xquad
Codice sorgente :
tfds.question_answering.Xquad
Versioni :
-
3.0.0
(predefinito): risolve il problema con una serie di esempi in cui gli intervalli di risposta sono disallineati a causa della rimozione degli spazi bianchi nel contesto. Questa modifica influisce su circa il 14% degli esempi di test.
-
Struttura delle caratteristiche :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
risposte | Sequenza | |||
risposte/risposta_inizio | Tensore | int32 | ||
risposte/testo | Testo | corda | ||
contesto | Testo | corda | ||
id | Tensore | corda | ||
domanda | Testo | corda | ||
titolo | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (configurazione predefinita)
Descrizione della configurazione : divisione del test XQuAD 'ar', con divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensioni del download :
420.97 MiB
Dimensione del set di dati:
134.83 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.541 |
'translate-test' | 1.151 |
'translate-train' | 86.787 |
- Esempi ( tfds.as_dataframe ):
xquad/de
Descrizione della configurazione : divisione del test XQuAD 'de', con divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
127.04 MiB
Dimensione del set di dati:
98.80 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.371 |
'translate-test' | 1.168 |
'translate-train' | 82.603 |
- Esempi ( tfds.as_dataframe ):
xquad/el
Descrizione della configurazione : divisione del test XQuAD 'el', con divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
499.40 MiB
Dimensione del set di dati:
157.90 MiB
Cache automatica ( documentazione ): Sì (test, translate-dev, translate-test), solo quando
shuffle_files=False
(translate-train)Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.100 |
'translate-test' | 1.182 |
'translate-train' | 79.946 |
- Esempi ( tfds.as_dataframe ):
xquad/es
Descrizione della configurazione : divisione del test XQuAD 'es', con divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
138.41 MiB
Dimensione del set di dati:
104.96 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.566 |
'translate-test' | 1.188 |
'translate-train' | 87.488 |
- Esempi ( tfds.as_dataframe ):
xquad/ciao
Descrizione della configurazione : divisione del test XQuAD 'hi', con divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
472.23 MiB
Dimensione del set di dati:
207.85 MiB
Cache automatica ( documentazione ): Sì (test, translate-dev, translate-test), solo quando
shuffle_files=False
(translate-train)Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.536 |
'translate-test' | 1.184 |
'translate-train' | 85.804 |
- Esempi ( tfds.as_dataframe ):
xquad/ru
Descrizione della configurazione : divisione del test XQuAD 'ru', con divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
513.80 MiB
Dimensione del set di dati:
159.38 MiB
Cache automatica ( documentazione ): Sì (test, translate-dev, translate-test), solo quando
shuffle_files=False
(translate-train)Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.469 |
'translate-test' | 1.190 |
'translate-train' | 84.869 |
- Esempi ( tfds.as_dataframe ):
xquad/th
Descrizione della configurazione : XQuAD 'th' test split, con le divisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
461.54 MiB
Dimensione del set di dati:
199.57 MiB
Cache automatica ( documentazione ): Sì (test, translate-dev, translate-test), solo quando
shuffle_files=False
(translate-train)Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.516 |
'translate-test' | 1.157 |
'translate-train' | 85.846 |
- Esempi ( tfds.as_dataframe ):
xquad/tr
Descrizione della configurazione : suddivisione del test XQuAD 'tr', con suddivisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
151.08 MiB
Dimensione del set di dati:
97.56 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.535 |
'translate-test' | 1.112 |
'translate-train' | 86.511 |
- Esempi ( tfds.as_dataframe ):
xquad/vi
Descrizione della configurazione : suddivisione del test XQuAD 'vi', con suddivisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
218.09 MiB
Dimensione del set di dati:
120.03 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.555 |
'translate-test' | 1.178 |
'translate-train' | 87.187 |
- Esempi ( tfds.as_dataframe ):
xquad/zh
Descrizione della configurazione : suddivisione del test XQuAD 'zh', con suddivisioni translate-train/translate-dev/translate-test tradotte automaticamente da XTREME (Hu et al., 2020).
Dimensione del download :
174.57 MiB
Dimensione del set di dati:
80.79 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
'translate-dev' | 10.475 |
'translate-test' | 1.186 |
'translate-train' | 85.700 |
- Esempi ( tfds.as_dataframe ):
xquad/it
Descrizione della configurazione : XQuAD 'en' test split.
Dimensione del download :
595.10 KiB
Dimensione del set di dati :
1.19 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.190 |
- Esempi ( tfds.as_dataframe ):