- Descripción :
DocNLI es un conjunto de datos a gran escala para la inferencia de lenguaje natural (NLI) a nivel de documento. DocNLI se transforma a partir de una amplia gama de problemas de PNL y cubre múltiples géneros de texto. Las premisas siempre se mantienen en la granularidad del documento, mientras que las hipótesis varían en longitud desde oraciones simples hasta pasajes con cientos de palabras. A diferencia de algunos conjuntos de datos NLI a nivel de oración existentes, DocNLI tiene artefactos bastante limitados.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/salesforce/DocNLI/
Código fuente :
tfds.text.docnli.DocNLI
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de la descarga :
313.89 MiB
Tamaño del conjunto de datos :
3.07 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 267,086 |
'train' | 942,314 |
'validation' | 234,258 |
- Estructura de características :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
hipótesis | Texto | cuerda | ||
etiqueta | Etiqueta de clase | int64 | ||
premisa | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}