c4_wsrs

  • Açıklama :

Common Crawl'ın web tarama külliyatının devasa, temizlenmiş bir versiyonu olan C4 veri setine web ölçeğinde ters ikame (wsrs) uygulayan bir tıbbi kısaltma genişletme veri seti.

Orijinal kaynak, Common Crawl veri kümesidir: https://commoncrawl.org

Bölmek örnekler
'train' 9.575.852
'validation' 991.422
  • Özellik yapısı :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
kısaltılmış_snippet Metin sicim
orijinal_snippet Metin sicim
  • Alıntı :

c4_wsrs/default (varsayılan yapılandırma)