- Descripción :
ASSET es un conjunto de datos para evaluar sistemas de simplificación de oraciones con múltiples transformaciones de reescritura, como se describe en "ASSET: un conjunto de datos para ajustar y evaluar modelos de simplificación de oraciones con múltiples transformaciones de reescritura". El corpus está compuesto por 2000 oraciones originales de validación y 359 de prueba, cada una de las cuales fue simplificada 10 veces por diferentes anotadores. El corpus también contiene juicios humanos de preservación del significado, fluidez y simplicidad para los resultados de varios sistemas automáticos de simplificación de texto.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/facebookresearch/asset
Código fuente :
tfds.datasets.asset.Builder
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Tamaño de la descarga :
3.47 MiB
Almacenamiento automático en caché ( documentación ): Sí
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
activo/simplificación (configuración predeterminada)
Descripción de la configuración : un conjunto de oraciones originales alineadas con 10 posibles simplificaciones para cada una.
Tamaño del conjunto de datos :
2.64 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 359 |
'validation' | 2,000 |
- Estructura de características :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
original | Texto | cuerda | ||
simplificaciones | Secuencia (Texto) | (Ninguna,) | cuerda |
- Ejemplos ( tfds.as_dataframe ):
activo/calificaciones
Descripción de la configuración : Calificaciones humanas de simplificación de texto producido automáticamente.
Tamaño del conjunto de datos :
1.44 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'full' | 4500 |
- Estructura de características :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
aspecto | Etiqueta de clase | int64 | ||
original | Texto | cuerda | ||
original_sentence_id | Tensor | int32 | ||
clasificación | Tensor | int32 | ||
simplificación | Texto | cuerda | ||
trabajador_id | Tensor | int32 |
- Ejemplos ( tfds.as_dataframe ):