pattes_wiki

  • Descriptif :

Les ensembles de données d'identification de paraphrase existants manquent de paires de phrases qui ont un chevauchement lexical élevé sans être des paraphrases. Les modèles formés sur ces données ne parviennent pas à distinguer les paires comme les vols de New York à la Floride et les vols de la Floride à New York. Cet ensemble de données contient 108 463 paires étiquetées par l'homme et 656 000 paires étiquetées de façon bruyante qui présentent l'importance de la structure de modélisation, du contexte et des informations sur l'ordre des mots pour le problème d'identification de la paraphrase.

Pour plus de détails, voir le document d'accompagnement : PAWS : Paraphrase Adversaries from Word Scrambling à https://arxiv.org/abs/1904.01130

Ce corpus contient des paires générées à partir de pages Wikipédia, contenant des paires générées à la fois par des méthodes d'échange de mots et de traduction inverse. Toutes les paires ont des jugements humains sur la paraphrase et la fluidité et elles sont divisées en sections Train/Dev/Test.

Tous les fichiers sont au format tsv avec quatre colonnes :

  1. id : Un identifiant unique pour chaque paire.
  2. sentence1 : La première phrase.
  3. sentence2 : La deuxième phrase.
  4. (noisy_)label : Label (Noisy) pour chaque paire.

Chaque étiquette a deux valeurs possibles : 0 indique que la paire a une signification différente, tandis que 1 indique que la paire est une paraphrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

pattes_wiki/labeled_final_tokenized (configuration par défaut)

  • Description de la configuration : sous-ensemble : labelled_final tokenisé : vrai

  • Taille du jeu de données : 17.96 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 8 000
'train' 49 401
'validation' 8 000

pattes_wiki/labeled_final_raw

  • Description de la configuration : sous-ensemble : labelled_final tokenized : false

  • Taille du jeu de données : 17.57 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 8 000
'train' 49 401
'validation' 8 000

pattes_wiki/labeled_swap_tokenized

  • Description de la configuration : sous-ensemble :labelled_swap tokenisé : vrai

  • Taille du jeu de données : 8.79 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 30 397

pattes_wiki/labeled_swap_raw

  • Description de la configuration : sous-ensemble :labelled_swap tokenized : false

  • Taille du jeu de données : 8.60 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 30 397

pattes_wiki/unlabeled_final_tokenized

  • Description de la configuration : sous-ensemble : unlabeled_final tokenisé : vrai

  • Taille du jeu de données : 177.89 MiB

  • Mise en cache automatique ( documentation ) : Oui (validation), uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 645 652
'validation' 10 000