- Descrizione :
Questo set di dati contiene 23.659 coppie di valutazione PAWS tradotte dall'uomo e 296.406 coppie di addestramento tradotte automaticamente in sei lingue tipologicamente distinte:
- francese
- spagnolo
- Tedesco
- Cinese
- giapponese
- coreano
Per ulteriori dettagli, vedere il documento di accompagnamento: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification su https://arxiv.org/abs/1908.11828
Analogamente al set di dati PAWS, gli esempi sono suddivisi in sezioni Train/Dev/Test. Tutti i file sono in formato tsv con quattro colonne:
-
id
: un ID univoco per ogni coppia. -
sentence1
: La prima frase. -
sentence2
: La seconda frase. -
(noisy_)label
: Etichetta (rumorosa) per ogni coppia.
Ogni etichetta ha due possibili valori: 0 indica che la coppia ha un significato diverso, mentre 1 indica che la coppia è una parafrasi.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/google-research-datasets/paws/tree/master/pawsx
Codice sorgente :
tfds.datasets.paws_x_wiki.Builder
Versioni :
-
1.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
28.88 MiB
Auto-cache ( documentazione ): Sì
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
frase1 | Testo | corda | ||
frase2 | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configurazione predefinita)
Descrizione della configurazione : Tradotto in de
Dimensione del set di dati:
15.27 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
- Esempi ( tfds.as_dataframe ):
paws_x_wiki/it
Descrizione della configurazione : Tradotto in en
Dimensione del set di dati:
14.59 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
- Esempi ( tfds.as_dataframe ):
paws_x_wiki/es
Descrizione config : Tradotto in es
Dimensione del set di dati:
15.27 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
- Esempi ( tfds.as_dataframe ):
paws_x_wiki/fr
Descrizione della configurazione : Tradotto in fr
Dimensione del set di dati:
15.79 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
- Esempi ( tfds.as_dataframe ):
paws_x_wiki/ja
Descrizione della configurazione : Tradotto in ja
Dimensione del set di dati:
17.77 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Esempi ( tfds.as_dataframe ):
paws_x_wiki/ko
Descrizione della configurazione : Tradotto in ko
Dimensione del set di dati:
16.42 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
- Esempi ( tfds.as_dataframe ):
paws_x_wiki/zh
Descrizione della configurazione : Tradotto in zh
Dimensione del set di dati:
13.20 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Esempi ( tfds.as_dataframe ):