- Descripción :
Este conjunto de datos contiene 23 659 pares de evaluación PAWS traducidos por humanos y 296 406 pares de entrenamiento traducidos automáticamente en seis idiomas tipológicamente distintos:
- Francés
- español
- Alemán
- Chino
- japonés
- coreano
Para obtener más detalles, consulte el documento adjunto: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification en https://arxiv.org/abs/1908.11828
De manera similar al conjunto de datos de PAWS, los ejemplos se dividen en secciones de Entrenamiento/Desarrollo/Prueba. Todos los archivos están en formato tsv con cuatro columnas:
-
id
: una identificación única para cada par. -
sentence1
: La primera oración. -
sentence2
: La segunda oración. -
(noisy_)label
: Etiqueta (ruidosa) para cada par.
Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/paws/tree/master/pawsx
Código fuente :
tfds.datasets.paws_x_wiki.Builder
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
28.88 MiB
Almacenamiento automático en caché ( documentación ): Sí
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | Etiqueta de clase | int64 | ||
oracion1 | Texto | cuerda | ||
oracion2 | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configuración predeterminada)
Descripción de la configuración : Traducido a de
Tamaño del conjunto de datos :
15.27 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/es
Descripción de la configuración : Traducido a en
Tamaño del conjunto de datos :
14.59 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/es
Descripción de la configuración : Traducido a es
Tamaño del conjunto de datos :
15.27 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/fr
Descripción de la configuración : Traducido a fr
Tamaño del conjunto de datos :
15.79 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/ja
Descripción de la configuración : Traducido a ja
Tamaño del conjunto de datos :
17.77 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_x_wiki/ko
Descripción de la configuración : Traducido a ko
Tamaño del conjunto de datos :
16.42 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
patas_x_wiki/zh
Descripción de la configuración : Traducido a zh
Tamaño del conjunto de datos :
13.20 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):