- Descriptif :
Un ensemble de données d'extension d'abréviations médicales qui applique la substitution inverse à l'échelle du Web (wsrs) à l'ensemble de données C4, qui est une version colossale et nettoyée du corpus d'exploration Web de Common Crawl.
La source originale est le jeu de données Common Crawl : https://commoncrawl.org
Description de la configuration : jeu de données C4-WSRS par défaut.
Page d' accueil : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Code source :
tfds.text.c4_wsrs.C4WSRS
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
143.01 KiB
Taille du jeu de données :
5.84 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 9 575 852 |
'validation' | 991 422 |
- Structure des fonctionnalités :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
extrait_abrégé | Texte | chaîne de caractères | ||
original_snippet | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :