- Descripción :
El corpus Multi-Genre Natural Language Inference (MultiNLI) es una colección de 433k pares de oraciones de fuentes múltiples anotadas con información de vinculación textual. El corpus sigue el modelo del corpus SNLI, pero se diferencia en que cubre una variedad de géneros de texto hablado y escrito, y admite una evaluación de generalización entre géneros distintiva. El corpus sirvió como base para la tarea compartida del Taller RepEval 2017 en EMNLP en Copenhague.
Página de inicio : https://www.nyu.edu/projects/bowman/multinli/
Código fuente :
tfds.text.MultiNLIMismatch
Versiones :
-
0.1.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
216.34 MiB
Tamaño del conjunto de datos :
90.91 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 392,702 |
'validation' | 10,000 |
- Estructura de características :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': Text(shape=(), dtype=string),
'premise': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
hipótesis | Texto | cuerda | ||
etiqueta | Texto | cuerda | ||
premisa | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}