super colle

  • Descriptif :

SuperGLUE ( https://super.gluebenchmark.com/ ) est une nouvelle référence inspirée de GLUE avec un nouvel ensemble de tâches de compréhension linguistique plus difficiles, des ressources améliorées et un nouveau classement public.

super_glue/boolq (configuration par défaut)

  • Description de la configuration : BoolQ (Boolean Questions, Clark et al., 2019a) est une tâche d'AQ où chaque exemple consiste en un court passage et une question oui/non sur le passage. Les questions sont fournies de manière anonyme et non sollicitée par les utilisateurs du moteur de recherche Google, puis associées à un paragraphe d'un article de Wikipédia contenant la réponse. Suite au travail original, nous évaluons avec précision.

  • Page d' accueil : https://github.com/google-research-datasets/boolean-questions

  • Taille du téléchargement : 3.93 MiB

  • Taille du jeu de données : 10.75 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 3 245
'train' 9 427
'validation' 3 270
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
passage Texte chaîne de caractères
question Texte chaîne de caractères
  • Citation :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • Description de la configuration : La CommitmentBank (De Marneffe et al., 2019) est un corpus de textes courts dans lesquels au moins une phrase contient une clause intégrée. Chacune de ces clauses incorporées est annotée avec le degré auquel nous nous attendons à ce que la personne qui a écrit le texte soit attachée à la vérité de la clause. La tâche qui en résulte est encadrée par une implication textuelle à trois classes sur des exemples tirés du Wall Street Journal, de la fiction du British National Corpus et de Switchboard. Chaque exemple consiste en une prémisse contenant une clause incorporée et l'hypothèse correspondante est l'extraction de cette clause. Nous utilisons un sous-ensemble des données qui avaient un accord inter-annotateur supérieur à 0,85. Les données sont déséquilibrées (relativement moins d'exemples neutres), nous évaluons donc en utilisant la précision et F1, où pour les F1 multi-classes, nous calculons la moyenne non pondérée du F1 par classe.

  • Page d' accueil : https://github.com/mcdm/CommitmentBank

  • Taille du téléchargement : 73.71 KiB

  • Taille du jeu de données : 229.28 KiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 250
'train' 250
'validation' 56
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colle/copa

  • Description de la configuration : L'ensemble de données Choix d'alternatives plausibles (COPA, Roemmele et al., 2011) est une tâche de raisonnement causal dans laquelle un système reçoit une phrase de prémisse et deux alternatives possibles. Le système doit choisir l'alternative qui a la relation causale la plus plausible avec la prémisse. La méthode utilisée pour la construction des alternatives garantit que la tâche nécessite un raisonnement causal pour être résolue. Les exemples traitent soit de causes possibles alternatives, soit d'effets possibles alternatifs de la phrase de prémisse, accompagnés d'une simple question désambiguïsante entre les deux types d'instances pour le modèle. Tous les exemples sont fabriqués à la main et se concentrent sur des sujets de blogs en ligne et une encyclopédie liée à la photographie. Suivant la recommandation des auteurs, nous évaluons en utilisant la précision.

  • Page d' accueil : http://people.ict.usc.edu/~gordon/copa.html

  • Taille du téléchargement : 42.96 KiB

  • Taille du jeu de données : 196.00 KiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 500
'train' 400
'validation' 100
  • Structure des fonctionnalités :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
choix1 Texte chaîne de caractères
choix2 Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
question Texte chaîne de caractères
  • Citation :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Description de la configuration : L'ensemble de données Multi-Sentence Reading Comprehension (MultiRC, Khashabi et al., 2018) est une tâche de question-réponse vrai/faux. Chaque exemple se compose d'un paragraphe de contexte, d'une question sur ce paragraphe et d'une liste de réponses possibles à cette question qui doivent être étiquetées comme vraies ou fausses. La question-réponse (QA) est un problème courant avec de nombreux ensembles de données. Nous utilisons MultiRC en raison d'un certain nombre de propriétés souhaitables : (i) chaque question peut avoir plusieurs réponses correctes possibles, de sorte que chaque paire question-réponse doit être évaluée indépendamment des autres paires, (ii) les questions sont conçues de telle sorte que répondre à chaque question nécessite tirer des faits de plusieurs phrases de contexte, et (iii) le format de la paire question-réponse correspond plus étroitement à l'API d'autres tâches SuperGLUE que ne le fait l'assurance qualité extractive basée sur la durée. Les paragraphes sont tirés de sept domaines, y compris les nouvelles, la fiction et le texte historique.

  • Page d' accueil : https://cogcomp.org/multirc/

  • Taille du téléchargement : 1.06 MiB

  • Taille du jeu de données : 70.39 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 9 693
'train' 27 243
'validation' 4 848
  • Structure des fonctionnalités :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
réponse Texte chaîne de caractères
idx FonctionnalitésDict
idx/réponse Tenseur int32
idx/paragraphe Tenseur int32
idx/question Tenseur int32
étiquette Étiquette de classe int64
paragraphe Texte chaîne de caractères
question Texte chaîne de caractères
  • Citation :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/enregistrement

  • Description de la configuration : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) est une tâche d'AQ à choix multiples. Chaque exemple se compose d'un article de presse et d'une question de style Cloze sur l'article dans lequel une entité est masquée. Le système doit prédire l'entité masquée à partir d'une liste donnée d'entités possibles dans le passage fourni, où la même entité peut être exprimée en utilisant plusieurs formes de surface différentes, qui sont toutes considérées comme correctes. Les articles sont tirés de CNN et du Daily Mail. À la suite du travail original, nous évaluons avec max (sur toutes les mentions) le niveau de jeton F1 et la correspondance exacte (EM).

  • Page d' accueil : https://sheng-z.github.io/ReCoRD-explorer/

  • Taille du téléchargement : 49.36 MiB

  • Taille du jeu de données : 166.40 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 10 000
'train' 100 730
'validation' 10 000
  • Structure des fonctionnalités :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
réponses Séquence (texte) (Aucun,) chaîne de caractères
entités Séquence (texte) (Aucun,) chaîne de caractères
idx FonctionnalitésDict
idx/passage Tenseur int32
idx/requête Tenseur int32
passage Texte chaîne de caractères
requête Texte chaîne de caractères
  • Citation :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colle/rte

  • Description de la configuration : Les ensembles de données de reconnaissance d'implication textuelle (RTE) proviennent d'une série de compétitions annuelles sur l'implication textuelle, le problème de prédire si une phrase de prémisse donnée implique une phrase d'hypothèse donnée (également connue sous le nom d'inférence en langage naturel, NLI). RTE était auparavant inclus dans GLUE, et nous utilisons les mêmes données et le même format qu'auparavant : nous fusionnons les données de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) et RTE5 (Bentivogli et al., 2009). Tous les ensembles de données sont combinés et convertis en une classification à deux classes : entailment et not_entailment. De toutes les tâches GLUE, RTE était parmi celles qui ont le plus bénéficié de l'apprentissage par transfert, passant d'une performance quasi aléatoire (~ 56 %) au moment du lancement de GLUE à une précision de 85 % (Liu et al., 2019c) au moment de l'écriture. Compte tenu de l'écart de huit points par rapport à la performance humaine, cependant, la tâche n'est pas encore résolue par les machines, et nous nous attendons à ce que l'écart restant soit difficile à combler.

  • Page d' accueil : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Taille du téléchargement : 733.32 KiB

  • Taille du jeu de données : 2.15 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 3 000
'train' 2 490
'validation' 277
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Description de la configuration : l'ensemble de données Word-in-Context (WiC, Pilehvar et Camacho-Collados, 2019) prend en charge une tâche de désambiguïsation du sens des mots convertie en classification binaire sur des paires de phrases. Étant donné deux phrases et un mot polysémique (sens ambigu) qui apparaît dans les deux phrases, la tâche consiste à déterminer si le mot est utilisé avec le même sens dans les deux phrases. Les phrases sont tirées de WordNet (Miller, 1995), VerbNet (Schuler, 2005) et Wiktionary. Nous suivons le travail original et évaluons en utilisant la précision.

  • Page d' accueil : https://pilehvar.github.io/wic/

  • Taille du téléchargement : 386.93 KiB

  • Taille du jeu de données : 1.67 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 400
'train' 5 428
'validation' 638
  • Structure des fonctionnalités :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
fin1 Tenseur int32
fin2 Tenseur int32
idx Tenseur int32
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
début1 Tenseur int32
début2 Tenseur int32
mot Texte chaîne de caractères
  • Citation :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Description de la configuration : Le Winograd Schema Challenge (WSC, Levesque et al., 2012) est une tâche de compréhension en lecture dans laquelle un système doit lire une phrase avec un pronom et sélectionner le référent de ce pronom dans une liste de choix. Compte tenu de la difficulté de cette tâche et de la marge restante, nous avons inclus WSC dans SuperGLUE et refondu l'ensemble de données dans sa forme de coréférence. La tâche est présentée comme un problème de classification binaire, par opposition au N-choix multiple, afin d'isoler la capacité du modèle à comprendre les liens de coréférence dans une phrase par opposition à diverses autres stratégies qui peuvent entrer en jeu dans des conditions de choix multiples. Dans cet esprit, nous créons une répartition avec 65 % de classe de majorité négative dans l'ensemble de validation, reflétant la distribution de l'ensemble de test caché, et 52 % de classe négative dans l'ensemble d'apprentissage. Les exemples de formation et de validation sont tirés de l'ensemble de données Winograd Schema original (Levesque et al., 2012), ainsi que ceux distribués par l'organisation affiliée Commonsense Reasoning. Les exemples de test sont dérivés de livres de fiction et ont été partagés avec nous par les auteurs de l'ensemble de données original. Auparavant, une version de WSC était refondue en NLI telle qu'elle était incluse dans GLUE, connue sous le nom de WNLI. Aucun progrès substantiel n'a été réalisé sur WNLI, de nombreuses soumissions ayant choisi de ne soumettre que des prédictions de classe majoritaire. WNLI a été rendu particulièrement difficile en raison d'une séparation train/dev contradictoire : les phrases de prémisse qui apparaissaient dans l'ensemble d'entraînement apparaissaient parfois dans l'ensemble de développement avec une hypothèse différente et une étiquette inversée. Si un système mémorisait l'ensemble d'apprentissage sans généraliser de manière significative, ce qui était facile en raison de la petite taille de l'ensemble d'apprentissage, il pourrait fonctionner bien en deçà du hasard sur l'ensemble de développement. Nous supprimons cette conception contradictoire dans la version SuperGLUE de WSC en veillant à ce qu'aucune phrase ne soit partagée entre les ensembles d'entraînement, de validation et de test.

Cependant, les ensembles de validation et de test proviennent de domaines différents, l'ensemble de validation étant constitué d'exemples ambigus tels que la modification d'un mot de phrase non nominal modifiera les dépendances de coréférence dans la phrase. L'ensemble de test se compose uniquement d'exemples plus simples, avec un nombre élevé de phrases nominales (et donc plus de choix pour le modèle), mais peu ou pas d'ambiguïté.

Diviser Exemples
'test' 146
'train' 554
'validation' 104
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
span1_index Tenseur int32
span1_text Texte chaîne de caractères
span2_index Tenseur int32
span2_text Texte chaîne de caractères
texte Texte chaîne de caractères
  • Citation :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixe

  • Description de la configuration : Le Winograd Schema Challenge (WSC, Levesque et al., 2012) est une tâche de compréhension en lecture dans laquelle un système doit lire une phrase avec un pronom et sélectionner le référent de ce pronom dans une liste de choix. Compte tenu de la difficulté de cette tâche et de la marge restante, nous avons inclus WSC dans SuperGLUE et refondu l'ensemble de données dans sa forme de coréférence. La tâche est présentée comme un problème de classification binaire, par opposition au N-choix multiple, afin d'isoler la capacité du modèle à comprendre les liens de coréférence dans une phrase par opposition à diverses autres stratégies qui peuvent entrer en jeu dans des conditions de choix multiples. Dans cet esprit, nous créons une répartition avec 65 % de classe de majorité négative dans l'ensemble de validation, reflétant la distribution de l'ensemble de test caché, et 52 % de classe négative dans l'ensemble d'apprentissage. Les exemples de formation et de validation sont tirés de l'ensemble de données Winograd Schema original (Levesque et al., 2012), ainsi que ceux distribués par l'organisation affiliée Commonsense Reasoning. Les exemples de test sont dérivés de livres de fiction et ont été partagés avec nous par les auteurs de l'ensemble de données original. Auparavant, une version de WSC était refondue en NLI telle qu'elle était incluse dans GLUE, connue sous le nom de WNLI. Aucun progrès substantiel n'a été réalisé sur WNLI, de nombreuses soumissions ayant choisi de ne soumettre que des prédictions de classe majoritaire. WNLI a été rendu particulièrement difficile en raison d'une séparation train/dev contradictoire : les phrases de prémisse qui apparaissaient dans l'ensemble d'entraînement apparaissaient parfois dans l'ensemble de développement avec une hypothèse différente et une étiquette inversée. Si un système mémorisait l'ensemble d'apprentissage sans généraliser de manière significative, ce qui était facile en raison de la petite taille de l'ensemble d'apprentissage, il pourrait fonctionner bien en deçà du hasard sur l'ensemble de développement. Nous supprimons cette conception contradictoire dans la version SuperGLUE de WSC en veillant à ce qu'aucune phrase ne soit partagée entre les ensembles d'entraînement, de validation et de test.

Cependant, les ensembles de validation et de test proviennent de domaines différents, l'ensemble de validation étant constitué d'exemples ambigus tels que la modification d'un mot de phrase non nominal modifiera les dépendances de coréférence dans la phrase. L'ensemble de test se compose uniquement d'exemples plus simples, avec un nombre élevé de phrases nominales (et donc plus de choix pour le modèle), mais peu ou pas d'ambiguïté.

Cette version corrige les problèmes où les étendues ne sont pas réellement des sous-chaînes du texte.

Diviser Exemples
'test' 146
'train' 554
'validation' 104
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
span1_index Tenseur int32
span1_text Texte chaîne de caractères
span2_index Tenseur int32
span2_text Texte chaîne de caractères
texte Texte chaîne de caractères
  • Citation :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Description de la configuration : ensemble de données de diagnostic construit par des experts qui teste automatiquement des modèles pour un large éventail de connaissances linguistiques, de bon sens et mondiales. Chaque exemple de ce diagnostic à large couverture est une paire de phrases étiquetées avec une relation d'implication à trois voies (implication, neutre ou contradiction) et étiquetées avec des étiquettes qui indiquent les phénomènes qui caractérisent la relation entre les deux phrases. Les soumissions au classement GLUE doivent inclure les prédictions du classificateur MultiNLI de la soumission sur l'ensemble de données de diagnostic, et les analyses des résultats ont été affichées à côté du classement principal. Étant donné que cette tâche de diagnostic à large couverture s'est avérée difficile pour les meilleurs modèles, nous la conservons dans SuperGLUE. Cependant, étant donné que MultiNLI ne fait pas partie de SuperGLUE, nous combinons la contradiction et le neutre en une seule étiquette not_entailment, et demandons que les soumissions incluent des prédictions sur l'ensemble résultant du modèle utilisé pour la tâche RTE.

  • Page d' accueil : https://gluebenchmark.com/diagnostics

  • Taille du téléchargement : 33.15 KiB

  • Taille du jeu de données : 290.53 KiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 104
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
  • Citation :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Description de la configuration : Winogender est conçu pour mesurer les préjugés sexistes dans les systèmes de résolution de coréférences. Nous utilisons la version Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) qui fait de Winogender une tâche d'implication textuelle. Chaque exemple consiste en une phrase de prémisse avec un pronom masculin ou féminin et une hypothèse donnant un antécédent possible du pronom. Les exemples se produisent dans des paires minimales, où la seule différence entre un exemple et sa paire est le genre du pronom dans la prémisse. Les performances sur Winogengen sont mesurées à la fois avec la précision et le score de parité entre les sexes : le pourcentage de paires minimales pour lesquelles les prédictions sont les mêmes. Nous notons qu'un système peut trivialement obtenir un score de parité entre les sexes parfait en devinant la même classe pour tous les exemples, de sorte qu'un score de parité entre les sexes élevé n'a de sens que s'il est accompagné d'une grande précision. En tant que test de diagnostic des préjugés sexistes, nous considérons les schémas comme ayant une valeur prédictive positive élevée et une valeur prédictive négative faible ; c'est-à-dire qu'ils peuvent démontrer la présence de préjugés sexistes dans un système, mais pas prouver son absence.

  • Page d' accueil : https://github.com/rudinger/winogenre-schemas

  • Taille du téléchargement : 10.17 KiB

  • Taille du jeu de données : 69.75 KiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 356
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.