zampe_wiki

Descrizione :

I set di dati di identificazione della parafrasi esistenti mancano di coppie di frasi che hanno un'elevata sovrapposizione lessicale senza essere parafrasi. I modelli formati su tali dati non riescono a distinguere coppie come voli da New York alla Florida e voli dalla Florida a New York. Questo set di dati contiene 108.463 coppie etichettate dall'uomo e 656.000 etichettate rumorosamente che evidenziano l'importanza della modellazione della struttura, del contesto e delle informazioni sull'ordine delle parole per il problema dell'identificazione della parafrasi.

Per ulteriori dettagli, vedere il documento di accompagnamento: PAWS: Paraphrase Adversaries from Word Scrambling su https://arxiv.org/abs/1904.01130

Questo corpus contiene coppie generate dalle pagine di Wikipedia, contenenti coppie generate da entrambi i metodi di scambio di parole e di traduzione all'indietro. Tutte le coppie hanno giudizi umani sia sulla parafrasi che sulla fluidità e sono suddivise in sezioni Train/Dev/Test.

Tutti i file sono in formato tsv con quattro colonne:

id : un ID univoco per ogni coppia.
sentence1 : La prima frase.
sentence2 : La seconda frase.
(noisy_)label : Etichetta (rumorosa) per ogni coppia.

Ogni etichetta ha due possibili valori: 0 indica che la coppia ha un significato diverso, mentre 1 indica che la coppia è una parafrasi.

Documentazione aggiuntiva : Esplora documenti con codice
Home page : https://github.com/google-research-datasets/paws
Codice sorgente : tfds.datasets.paws_wiki.Builder
Versioni :
- 1.0.0 : versione iniziale.
- 1.1.0 (predefinito): aggiunge configurazioni a diversi sottoinsiemi e supporta il testo non elaborato.
Dimensione del download : 57.47 MiB
Struttura delle caratteristiche :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Tipo D
	CaratteristicheDict
etichetta	ClassLabel	int64
frase1	Testo	corda
frase2	Testo	corda

Chiavi supervisionate (Vedi as_supervised doc ): None
Figura ( tfds.show_examples ): non supportato.
Citazione :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (configurazione predefinita)

Descrizione della configurazione : Sottoinsieme: labeled_final tokenized: True
Dimensione del set di dati: 17.96 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'test'`	8.000
`'train'`	49.401
`'validation'`	8.000

Esempi ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

Descrizione della configurazione : Sottoinsieme: labeled_final tokenized: False
Dimensione del set di dati: 17.57 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'test'`	8.000
`'train'`	49.401
`'validation'`	8.000

Esempi ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

Descrizione della configurazione : sottoinsieme: labeled_swap tokenizzato: vero
Dimensione del set di dati: 8.79 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	30.397

Esempi ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

Descrizione della configurazione : sottoinsieme: labeled_swap tokenizzato: falso
Dimensione del set di dati: 8.60 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	30.397

Esempi ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

Descrizione della configurazione : Sottoinsieme: unlabeled_final tokenized: True
Dimensione del set di dati: 177.89 MiB
Cache automatica ( documentazione ): Sì (convalida), solo quando shuffle_files=False (treno)
Divisioni :

Diviso	Esempi
`'train'`	645.652
`'validation'`	10.000

Esempi ( tfds.as_dataframe ):

zampe_wiki Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.