c4_wsrs

  • Descrizione :

Un set di dati di espansione di abbreviazioni mediche che applica la sostituzione inversa su scala web (wsrs) al set di dati C4, che è una versione colossale e pulita del corpus di scansione web di Common Crawl.

La fonte originale è il set di dati Common Crawl: https://commoncrawl.org

Diviso Esempi
'train' 9.575.852
'validation' 991.422
  • Struttura delle caratteristiche :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
abbreviated_snippet Testo corda
original_snippet Testo corda
  • Citazione :

c4_wsrs/default (configurazione predefinita)