- Descriptif :
Les ensembles de données d'identification de paraphrase existants manquent de paires de phrases qui ont un chevauchement lexical élevé sans être des paraphrases. Les modèles formés sur ces données ne parviennent pas à distinguer les paires comme les vols de New York à la Floride et les vols de la Floride à New York. Cet ensemble de données contient 108 463 paires étiquetées par l'homme et 656 000 paires étiquetées de façon bruyante qui présentent l'importance de la structure de modélisation, du contexte et des informations sur l'ordre des mots pour le problème d'identification de la paraphrase.
Pour plus de détails, voir le document d'accompagnement : PAWS : Paraphrase Adversaries from Word Scrambling à https://arxiv.org/abs/1904.01130
Ce corpus contient des paires générées à partir de pages Wikipédia, contenant des paires générées à la fois par des méthodes d'échange de mots et de traduction inverse. Toutes les paires ont des jugements humains sur la paraphrase et la fluidité et elles sont divisées en sections Train/Dev/Test.
Tous les fichiers sont au format tsv avec quatre colonnes :
-
id
: Un identifiant unique pour chaque paire. -
sentence1
: La première phrase. -
sentence2
: La deuxième phrase. -
(noisy_)label
: Label (Noisy) pour chaque paire.
Chaque étiquette a deux valeurs possibles : 0 indique que la paire a une signification différente, tandis que 1 indique que la paire est une paraphrase.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research-datasets/paws
Code source :
tfds.datasets.paws_wiki.Builder
Versions :
-
1.0.0
: Version initiale. -
1.1.0
(par défaut) : ajoute des configurations à différents sous-ensembles et prend en charge le texte brut.
-
Taille du téléchargement :
57.47 MiB
Structure des fonctionnalités :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette | Étiquette de classe | int64 | ||
phrase1 | Texte | chaîne de caractères | ||
phrase2 | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
pattes_wiki/labeled_final_tokenized (configuration par défaut)
Description de la configuration : sous-ensemble : labelled_final tokenisé : vrai
Taille du jeu de données :
17.96 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 8 000 |
'train' | 49 401 |
'validation' | 8 000 |
- Exemples ( tfds.as_dataframe ):
pattes_wiki/labeled_final_raw
Description de la configuration : sous-ensemble : labelled_final tokenized : false
Taille du jeu de données :
17.57 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 8 000 |
'train' | 49 401 |
'validation' | 8 000 |
- Exemples ( tfds.as_dataframe ):
pattes_wiki/labeled_swap_tokenized
Description de la configuration : sous-ensemble :labelled_swap tokenisé : vrai
Taille du jeu de données :
8.79 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 30 397 |
- Exemples ( tfds.as_dataframe ):
pattes_wiki/labeled_swap_raw
Description de la configuration : sous-ensemble :labelled_swap tokenized : false
Taille du jeu de données :
8.60 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 30 397 |
- Exemples ( tfds.as_dataframe ):
pattes_wiki/unlabeled_final_tokenized
Description de la configuration : sous-ensemble : unlabeled_final tokenisé : vrai
Taille du jeu de données :
177.89 MiB
Mise en cache automatique ( documentation ) : Oui (validation), uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 645 652 |
'validation' | 10 000 |
- Exemples ( tfds.as_dataframe ):