patas_wiki

  • Descripción :

Los conjuntos de datos de identificación de paráfrasis existentes carecen de pares de oraciones que tengan una gran superposición léxica sin ser paráfrasis. Los modelos entrenados con tales datos no logran distinguir pares como vuelos de Nueva York a Florida y vuelos de Florida a Nueva York. Este conjunto de datos contiene 108 463 pares etiquetados por humanos y 656 000 pares etiquetados con ruido que destacan la importancia de modelar la estructura, el contexto y la información del orden de las palabras para el problema de la identificación de paráfrasis.

Para obtener más detalles, consulte el documento adjunto: PAWS: Paraphrase Adversaries from Word Scrambling en https://arxiv.org/abs/1904.01130

Este corpus contiene pares generados a partir de páginas de Wikipedia, que contienen pares generados a partir de métodos de intercambio de palabras y traducción inversa. Todos los pares tienen juicios humanos tanto en paráfrasis como en fluidez y están divididos en secciones de Entrenamiento/Desarrollo/Prueba.

Todos los archivos están en formato tsv con cuatro columnas:

  1. id : una identificación única para cada par.
  2. sentence1 : La primera oración.
  3. sentence2 : La segunda oración.
  4. (noisy_)label : Etiqueta (ruidosa) para cada par.

Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (configuración predeterminada)

  • Descripción de la configuración : subconjunto: etiquetado_final tokenizado: verdadero

  • Tamaño del conjunto de datos : 17.96 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 8,000
'train' 49,401
'validation' 8,000

patas_wiki/etiquetado_final_raw

  • Descripción de la configuración : subconjunto: etiquetado_final tokenizado: falso

  • Tamaño del conjunto de datos : 17.57 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_swap_tokenized

  • Descripción de la configuración : subconjunto: etiquetado_intercambio tokenizado: verdadero

  • Tamaño del conjunto de datos : 8.79 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 30,397

paws_wiki/labeled_swap_raw

  • Descripción de la configuración : subconjunto: etiquetado_intercambio tokenizado: falso

  • Tamaño del conjunto de datos : 8.60 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • Descripción de la configuración : subconjunto: unlabeled_final tokenizado: verdadero

  • Tamaño del conjunto de datos : 177.89 MiB

  • Almacenamiento automático en caché ( documentación ): Sí (validación), solo cuando shuffle_files=False (tren)

  • Divisiones :

Separar Ejemplos
'train' 645,652
'validation' 10,000