- Açıklama :
Common Crawl'ın web tarama külliyatının devasa, temizlenmiş bir versiyonu olan C4 veri setine web ölçeğinde ters ikame (wsrs) uygulayan bir tıbbi kısaltma genişletme veri seti.
Orijinal kaynak, Common Crawl veri kümesidir: https://commoncrawl.org
Yapılandırma açıklaması : Varsayılan C4-WSRS veri kümesi.
Ana sayfa : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Kaynak kodu :
tfds.text.c4_wsrs.C4WSRS
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
143.01 KiB
Veri kümesi boyutu :
5.84 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 9.575.852 |
'validation' | 991.422 |
- Özellik yapısı :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
kısaltılmış_snippet | Metin | sicim | ||
orijinal_snippet | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :