Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

c4_wsrs

Descripción :

Un conjunto de datos de expansión de abreviaturas médicas que aplica sustitución inversa a escala web (wsrs) al conjunto de datos C4, que es una versión colosal y limpia del corpus de rastreo web de Common Crawl.

La fuente original es el conjunto de datos Common Crawl: https://commoncrawl.org

Descripción de la configuración : Conjunto de datos C4-WSRS predeterminado.
Página de inicio: https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Código fuente : tfds.text.c4_wsrs.C4WSRS
Versiones :
- 1.0.0 (predeterminado): Versión inicial.
Tamaño de la descarga : 143.01 KiB
Tamaño del conjunto de datos : 5.84 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	9,575,852
`'validation'`	991,422

Estructura de características :

FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
fragmento_abreviado	Texto	cadena
fragmento_original	Texto	cadena

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

c4_wsrs Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

c4_wsrs/default (configuración predeterminada)

c4_wsrs