- Descrizione :
Un set di dati di espansione di abbreviazioni mediche che applica la sostituzione inversa su scala web (wsrs) al set di dati C4, che è una versione colossale e pulita del corpus di scansione web di Common Crawl.
La fonte originale è il set di dati Common Crawl: https://commoncrawl.org
Descrizione della configurazione : set di dati C4-WSRS predefinito.
Home page : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Codice sorgente :
tfds.text.c4_wsrs.C4WSRS
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
143.01 KiB
Dimensione del set di dati:
5.84 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 9.575.852 |
'validation' | 991.422 |
- Struttura delle caratteristiche :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
abbreviated_snippet | Testo | corda | ||
original_snippet | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :