colle

  • Descriptif :

GLUE, le référentiel d'évaluation de la compréhension générale du langage ( https://gluebenchmark.com/ ) est une collection de ressources pour la formation, l'évaluation et l'analyse des systèmes de compréhension du langage naturel.

glue/cola (config par défaut)

  • Description de la configuration : Le Corpus of Linguistic Acceptability se compose de jugements d'acceptabilité en anglais tirés de livres et d'articles de revues sur la théorie linguistique. Chaque exemple est une séquence de mots annotés s'il s'agit d'une phrase grammaticale en anglais.

  • Page d' accueil : https://nyu-mll.github.io/CoLA/

  • Taille du téléchargement : 368.14 KiB

  • Taille du jeu de données : 965.49 KiB

  • Fractionnements :

Diviser Exemples
'test' 1 063
'train' 8 551
'validation' 1 043
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
phrase Texte chaîne de caractères
  • Citation :
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/inox2

  • Description de la configuration : Le Stanford Sentiment Treebank se compose de phrases tirées de critiques de films et d'annotations humaines de leurs sentiments. La tâche consiste à prédire le sentiment d'une phrase donnée. Nous utilisons la division de classe bidirectionnelle (positive/négative) et n'utilisons que des étiquettes au niveau de la phrase.

  • Page d' accueil : https://nlp.stanford.edu/sentiment/index.html

  • Taille du téléchargement : 7.09 MiB

  • Taille du jeu de données : 7.22 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 821
'train' 67 349
'validation' 872
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
phrase Texte chaîne de caractères
  • Citation :
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/mrpc

  • Description de la configuration : Le Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) est un corpus de paires de phrases automatiquement extraites de sources d'actualités en ligne, avec des annotations humaines pour savoir si les phrases de la paire sont sémantiquement équivalentes.

  • Page d' accueil : https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • Taille du téléchargement : 1.43 MiB

  • Taille du jeu de données : 1.74 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 725
'train' 3 668
'validation' 408
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
  • Citation :
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/qqp

  • Description de la configuration : L'ensemble de données Quora Question Pairs2 est une collection de paires de questions du site Web communautaire de questions-réponses Quora. La tâche consiste à déterminer si une paire de questions est sémantiquement équivalente.

  • Page d' accueil : https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • Taille du téléchargement : 39.76 MiB

  • Taille du jeu de données : 150.37 MiB

  • Fractionnements :

Diviser Exemples
'test' 390 965
'train' 363 846
'validation' 40 430
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question1': Text(shape=(), dtype=string),
    'question2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
question 1 Texte chaîne de caractères
question 2 Texte chaîne de caractères
  • Citation :
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/stsb

  • Description de la configuration : Le Semantic Textual Similarity Benchmark (Cer et al., 2017) est une collection de paires de phrases tirées de titres d'actualités, de légendes de vidéos et d'images et de données d'inférence en langage naturel. Chaque paire est annotée par un humain avec un score de similarité de 0 à 5.

  • Page d' accueil : http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • Taille du téléchargement : 784.05 KiB

  • Taille du jeu de données : 1.58 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 379
'train' 5 749
'validation' 1 500
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': float32,
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Tenseur float32
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
  • Citation :
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/mnli

  • Description de la configuration : le corpus d'inférence en langage naturel multi-genres est une collection participative de paires de phrases avec des annotations d'implication textuelle. Étant donné une phrase de prémisse et une phrase d'hypothèse, la tâche consiste à prédire si la prémisse implique l'hypothèse (implication), contredit l'hypothèse (contradiction) ou aucune (neutre). Les phrases prémisses sont rassemblées à partir de dix sources différentes, y compris des discours transcrits, de la fiction et des rapports gouvernementaux. Nous utilisons l'ensemble de tests standard, pour lequel nous avons obtenu des étiquettes privées des auteurs, et évaluons à la fois la section correspondante (dans le domaine) et la section non concordante (interdomaine). Nous utilisons et recommandons également le corpus SNLI comme exemples de 550k de données d'entraînement auxiliaires.

  • Page d'accueil : http://www.nyu.edu/projects/bowman/multinli/

  • Taille du téléchargement : 298.29 MiB

  • Taille du jeu de données : 100.56 MiB

  • Fractionnements :

Diviser Exemples
'test_matched' 9 796
'test_mismatched' 9 847
'train' 392 702
'validation_matched' 9 815
'validation_mismatched' 9 832
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

glue/mnli_mismatched

  • Description de la configuration : la validation et le test ne correspondent pas à MNLI. Voir le "mnli" BuilderConfig pour plus d'informations.

  • Page d'accueil : http://www.nyu.edu/projects/bowman/multinli/

  • Taille du téléchargement : 298.29 MiB

  • Taille du jeu de données : 4.79 MiB

  • Fractionnements :

Diviser Exemples
'test' 9 847
'validation' 9 832
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

glue/mnli_matched

  • Description de la configuration : la validation et le test correspondants se séparent de MNLI. Voir le "mnli" BuilderConfig pour plus d'informations.

  • Page d'accueil : http://www.nyu.edu/projects/bowman/multinli/

  • Taille du téléchargement : 298.29 MiB

  • Taille du jeu de données : 4.58 MiB

  • Fractionnements :

Diviser Exemples
'test' 9 796
'validation' 9 815
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/qnli

  • Description de la configuration : Le Stanford Question Answering Dataset est un ensemble de données question-réponse composé de paires question-paragraphe, où l'une des phrases du paragraphe (tiré de Wikipedia) contient la réponse à la question correspondante (écrite par un annotateur). Nous convertissons la tâche en classification de paires de phrases en formant une paire entre chaque question et chaque phrase dans le contexte correspondant, et en filtrant les paires avec un faible chevauchement lexical entre la question et la phrase de contexte. La tâche consiste à déterminer si la phrase contextuelle contient la réponse à la question. Cette version modifiée de la tâche d'origine supprime l'exigence que le modèle sélectionne la réponse exacte, mais supprime également les hypothèses simplificatrices selon lesquelles la réponse est toujours présente dans l'entrée et que le chevauchement lexical est un indice fiable.

  • Page d' accueil : https://rajpurkar.github.io/SQuAD-explorer/

  • Taille du téléchargement : 10.14 MiB

  • Taille du jeu de données : 32.99 MiB

  • Fractionnements :

Diviser Exemples
'test' 5 463
'train' 104 743
'validation' 5 463
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
question Texte chaîne de caractères
phrase Texte chaîne de caractères
  • Citation :
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/rte

  • Description de la configuration : les ensembles de données de reconnaissance d'implication textuelle (RTE) proviennent d'une série de défis annuels d'implication textuelle. Nous combinons les données de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) et RTE5 (Bentivogli et al., 2009).4 Les exemples sont construit sur la base des nouvelles et du texte de Wikipedia. Nous convertissons tous les ensembles de données en une division à deux classes, où pour les ensembles de données à trois classes, nous transformons neutre et contradiction en non implication, pour plus de cohérence.

  • Page d' accueil : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Taille du téléchargement : 680.81 KiB

  • Taille du jeu de données : 2.15 MiB

  • Fractionnements :

Diviser Exemples
'test' 3 000
'train' 2 490
'validation' 277
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
  • Citation :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/wnli

  • Description de la configuration : Le Winograd Schema Challenge (Levesque et al., 2011) est une tâche de compréhension de lecture dans laquelle un système doit lire une phrase avec un pronom et sélectionner le référent de ce pronom dans une liste de choix. Les exemples sont construits manuellement pour déjouer des méthodes statistiques simples : chacun dépend des informations contextuelles fournies par un seul mot ou une seule phrase dans la phrase. Pour convertir le problème en classification de paires de phrases, nous construisons des paires de phrases en remplaçant le pronom ambigu par chaque référent possible. La tâche consiste à prédire si la phrase avec le pronom substitué est impliquée par la phrase originale. Nous utilisons un petit ensemble d'évaluation composé de nouveaux exemples dérivés de livres de fiction partagés en privé par les auteurs du corpus original. Alors que l'ensemble d'entraînement inclus est équilibré entre deux classes, l'ensemble de test est déséquilibré entre elles (65 % sans implication). De plus, en raison d'une bizarrerie de données, l'ensemble de développement est contradictoire : les hypothèses sont parfois partagées entre les exemples de formation et de développement, donc si un modèle mémorise les exemples de formation, ils prédiront la mauvaise étiquette sur l'exemple d'ensemble de développement correspondant. Comme avec QNLI, chaque exemple est évalué séparément, il n'y a donc pas de correspondance systématique entre le score d'un modèle sur cette tâche et son score sur la tâche originale non convertie. Nous appelons le jeu de données converti WNLI (Winograd NLI).

  • Page d' accueil : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • Taille du téléchargement : 28.32 KiB

  • Taille du jeu de données : 198.88 KiB

  • Fractionnements :

Diviser Exemples
'test' 146
'train' 635
'validation' 71
  • Structure des fonctionnalités :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
idx Tenseur int32
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
  • Citation :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colle/hache

  • Description de la configuration : un ensemble de données d'évaluation sélectionné manuellement pour une analyse fine des performances du système sur un large éventail de phénomènes linguistiques. Cet ensemble de données évalue la compréhension des phrases à travers des problèmes d'inférence du langage naturel (NLI). Utilisez un modèle formé sur MulitNLI pour produire des prédictions pour cet ensemble de données.

  • Page d' accueil : https://gluebenchmark.com/diagnostics

  • Taille du téléchargement : 217.05 KiB

  • Taille du jeu de données : 299.16 KiB

  • Fractionnements :

Diviser Exemples
'test' 1 104
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
idx Tenseur int32
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.