- Descriptif :
DocNLI est un ensemble de données à grande échelle pour l'inférence du langage naturel (NLI) au niveau du document. DocNLI est transformé à partir d'un large éventail de problèmes de PNL et couvre plusieurs genres de texte. Les prémisses restent toujours dans la granularité du document, tandis que les hypothèses varient en longueur, allant de phrases simples à des passages de centaines de mots. Contrairement à certains ensembles de données NLI existants au niveau de la phrase, DocNLI a des artefacts assez limités.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/salesforce/DocNLI/
Code source :
tfds.text.docnli.DocNLI
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
313.89 MiB
Taille du jeu de données :
3.07 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 267 086 |
'train' | 942 314 |
'validation' | 234 258 |
- Structure des fonctionnalités :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
hypothèse | Texte | chaîne de caractères | ||
étiquette | Étiquette de classe | int64 | ||
prémisse | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}