- Descripción :
Los sistemas de diálogo orientados a tareas necesitan saber cuándo una consulta se encuentra fuera de su rango de intenciones admitidas, pero los corpus de clasificación de texto actuales solo definen conjuntos de etiquetas que cubren cada ejemplo. Presentamos un nuevo conjunto de datos que incluye consultas que están fuera de alcance (OOS), es decir, consultas que no se incluyen en ninguna de las intenciones admitidas por el sistema. Esto plantea un nuevo desafío porque los modelos no pueden asumir que cada consulta en el momento de la inferencia pertenece a una clase de intención compatible con el sistema. Nuestro conjunto de datos también cubre 150 clases de intención en 10 dominios, capturando la amplitud que debe manejar un agente orientado a tareas de producción. Ofrece una forma de comparar de forma más rigurosa y realista la clasificación de texto en sistemas de diálogo basados en tareas.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/clinc/oos-eval/
Código fuente :
tfds.text.ClincOOS
Versiones :
-
0.1.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
256.01 KiB
Tamaño del conjunto de datos :
3.40 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 4500 |
'test_oos' | 1,000 |
'train' | 15,000 |
'train_oos' | 100 |
'validation' | 3,000 |
'validation_oos' | 100 |
- Estructura de características :
FeaturesDict({
'domain': int32,
'domain_name': Text(shape=(), dtype=string),
'intent': int32,
'intent_name': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
dominio | Tensor | int32 | ||
nombre de dominio | Texto | cuerda | ||
intención | Tensor | int32 | ||
intent_name | Texto | cuerda | ||
texto | Texto | cuerda |
Claves supervisadas (ver
as_supervised
doc ):('text', 'intent')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{larson-etal-2019-evaluation,
title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction",
author = "Larson, Stefan and
Mahendran, Anish and
Peper, Joseph J. and
Clarke, Christopher and
Lee, Andrew and
Hill, Parker and
Kummerfeld, Jonathan K. and
Leach, Kevin and
Laurenzano, Michael A. and
Tang, Lingjia and
Mars, Jason",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D19-1131",
doi = "10.18653/v1/D19-1131",
pages = "1311--1316",
}