zampe_wiki

  • Descrizione :

I set di dati di identificazione della parafrasi esistenti mancano di coppie di frasi che hanno un'elevata sovrapposizione lessicale senza essere parafrasi. I modelli formati su tali dati non riescono a distinguere coppie come voli da New York alla Florida e voli dalla Florida a New York. Questo set di dati contiene 108.463 coppie etichettate dall'uomo e 656.000 etichettate rumorosamente che evidenziano l'importanza della modellazione della struttura, del contesto e delle informazioni sull'ordine delle parole per il problema dell'identificazione della parafrasi.

Per ulteriori dettagli, vedere il documento di accompagnamento: PAWS: Paraphrase Adversaries from Word Scrambling su https://arxiv.org/abs/1904.01130

Questo corpus contiene coppie generate dalle pagine di Wikipedia, contenenti coppie generate da entrambi i metodi di scambio di parole e di traduzione all'indietro. Tutte le coppie hanno giudizi umani sia sulla parafrasi che sulla fluidità e sono suddivise in sezioni Train/Dev/Test.

Tutti i file sono in formato tsv con quattro colonne:

  1. id : un ID univoco per ogni coppia.
  2. sentence1 : La prima frase.
  3. sentence2 : La seconda frase.
  4. (noisy_)label : Etichetta (rumorosa) per ogni coppia.

Ogni etichetta ha due possibili valori: 0 indica che la coppia ha un significato diverso, mentre 1 indica che la coppia è una parafrasi.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
frase1 Testo corda
frase2 Testo corda
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (configurazione predefinita)

  • Descrizione della configurazione : Sottoinsieme: labeled_final tokenized: True

  • Dimensione del set di dati: 17.96 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_final_raw

  • Descrizione della configurazione : Sottoinsieme: labeled_final tokenized: False

  • Dimensione del set di dati: 17.57 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_swap_tokenized

  • Descrizione della configurazione : sottoinsieme: labeled_swap tokenizzato: vero

  • Dimensione del set di dati: 8.79 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 30.397

paws_wiki/labeled_swap_raw

  • Descrizione della configurazione : sottoinsieme: labeled_swap tokenizzato: falso

  • Dimensione del set di dati: 8.60 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 30.397

paws_wiki/unlabeled_final_tokenized

  • Descrizione della configurazione : Sottoinsieme: unlabeled_final tokenized: True

  • Dimensione del set di dati: 177.89 MiB

  • Cache automatica ( documentazione ): Sì (convalida), solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 645.652
'validation' 10.000