- Descrizione :
I set di dati di identificazione della parafrasi esistenti mancano di coppie di frasi che hanno un'elevata sovrapposizione lessicale senza essere parafrasi. I modelli formati su tali dati non riescono a distinguere coppie come voli da New York alla Florida e voli dalla Florida a New York. Questo set di dati contiene 108.463 coppie etichettate dall'uomo e 656.000 etichettate rumorosamente che evidenziano l'importanza della modellazione della struttura, del contesto e delle informazioni sull'ordine delle parole per il problema dell'identificazione della parafrasi.
Per ulteriori dettagli, vedere il documento di accompagnamento: PAWS: Paraphrase Adversaries from Word Scrambling su https://arxiv.org/abs/1904.01130
Questo corpus contiene coppie generate dalle pagine di Wikipedia, contenenti coppie generate da entrambi i metodi di scambio di parole e di traduzione all'indietro. Tutte le coppie hanno giudizi umani sia sulla parafrasi che sulla fluidità e sono suddivise in sezioni Train/Dev/Test.
Tutti i file sono in formato tsv con quattro colonne:
-
id
: un ID univoco per ogni coppia. -
sentence1
: La prima frase. -
sentence2
: La seconda frase. -
(noisy_)label
: Etichetta (rumorosa) per ogni coppia.
Ogni etichetta ha due possibili valori: 0 indica che la coppia ha un significato diverso, mentre 1 indica che la coppia è una parafrasi.
Documentazione aggiuntiva : Esplora documenti con codice
Home page : https://github.com/google-research-datasets/paws
Codice sorgente :
tfds.datasets.paws_wiki.Builder
Versioni :
-
1.0.0
: versione iniziale. -
1.1.0
(predefinito): aggiunge configurazioni a diversi sottoinsiemi e supporta il testo non elaborato.
-
Dimensione del download :
57.47 MiB
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
frase1 | Testo | corda | ||
frase2 | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (configurazione predefinita)
Descrizione della configurazione : Sottoinsieme: labeled_final tokenized: True
Dimensione del set di dati:
17.96 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Esempi ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
Descrizione della configurazione : Sottoinsieme: labeled_final tokenized: False
Dimensione del set di dati:
17.57 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Esempi ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Descrizione della configurazione : sottoinsieme: labeled_swap tokenizzato: vero
Dimensione del set di dati:
8.79 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 30.397 |
- Esempi ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Descrizione della configurazione : sottoinsieme: labeled_swap tokenizzato: falso
Dimensione del set di dati:
8.60 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 30.397 |
- Esempi ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Descrizione della configurazione : Sottoinsieme: unlabeled_final tokenized: True
Dimensione del set di dati:
177.89 MiB
Cache automatica ( documentazione ): Sì (convalida), solo quando
shuffle_files=False
(treno)Divisioni :
Diviso | Esempi |
---|---|
'train' | 645.652 |
'validation' | 10.000 |
- Esempi ( tfds.as_dataframe ):