- Descripción :
Un conjunto de datos de expansión de abreviaturas médicas que aplica sustitución inversa a escala web (wsrs) al conjunto de datos C4, que es una versión colosal y limpia del corpus de rastreo web de Common Crawl.
La fuente original es el conjunto de datos Common Crawl: https://commoncrawl.org
Descripción de la configuración : Conjunto de datos C4-WSRS predeterminado.
Página de inicio: https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Código fuente :
tfds.text.c4_wsrs.C4WSRS
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Tamaño de la descarga :
143.01 KiB
Tamaño del conjunto de datos :
5.84 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- Estructura de características :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
fragmento_abreviado | Texto | cadena | ||
fragmento_original | Texto | cadena |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :