c4_wsrs

Descrizione :

Un set di dati di espansione di abbreviazioni mediche che applica la sostituzione inversa su scala web (wsrs) al set di dati C4, che è una versione colossale e pulita del corpus di scansione web di Common Crawl.

La fonte originale è il set di dati Common Crawl: https://commoncrawl.org

Descrizione della configurazione : set di dati C4-WSRS predefinito.
Home page : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Codice sorgente : tfds.text.c4_wsrs.C4WSRS
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Dimensione del download : 143.01 KiB
Dimensione del set di dati: 5.84 GiB
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'train'`	9.575.852
`'validation'`	991.422

Struttura delle caratteristiche :

FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Tipo D
	CaratteristicheDict
abbreviated_snippet	Testo	corda
original_snippet	Testo	corda

Chiavi supervisionate (Vedi as_supervised doc ): None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

c4_wsrs Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

c4_wsrs/default (configurazione predefinita)

c4_wsrs