Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

activo

Descripción :

ASSET es un conjunto de datos para evaluar sistemas de simplificación de oraciones con múltiples transformaciones de reescritura, como se describe en "ASSET: un conjunto de datos para ajustar y evaluar modelos de simplificación de oraciones con múltiples transformaciones de reescritura". El corpus está compuesto por 2000 oraciones originales de validación y 359 de prueba, cada una de las cuales fue simplificada 10 veces por diferentes anotadores. El corpus también contiene juicios humanos de preservación del significado, fluidez y simplicidad para los resultados de varios sistemas automáticos de simplificación de texto.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/facebookresearch/asset
Código fuente : tfds.datasets.asset.Builder
Versiones :
- 1.0.0 (predeterminado): Versión inicial.
Tamaño de la descarga : 3.47 MiB
Almacenamiento automático en caché ( documentación ): Sí
Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

activo/simplificación (configuración predeterminada)

Descripción de la configuración : un conjunto de oraciones originales alineadas con 10 posibles simplificaciones para cada una.
Tamaño del conjunto de datos : 2.64 MiB
Divisiones :

Separar	Ejemplos
`'test'`	359
`'validation'`	2,000

Estructura de características :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
original	Texto		cuerda
simplificaciones	Secuencia (Texto)	(Ninguna,)	cuerda

Ejemplos ( tfds.as_dataframe ):

activo/calificaciones

Descripción de la configuración : Calificaciones humanas de simplificación de texto producido automáticamente.
Tamaño del conjunto de datos : 1.44 MiB
Divisiones :

Separar	Ejemplos
`'full'`	4500

Estructura de características :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
aspecto	Etiqueta de clase	int64
original	Texto	cuerda
original_sentence_id	Tensor	int32
clasificación	Tensor	int32
simplificación	Texto	cuerda
trabajador_id	Tensor	int32

Ejemplos ( tfds.as_dataframe ):

activo Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

activo/simplificación (configuración predeterminada)

activo/calificaciones

activo