proteina_net

  • Descrizione :

ProteinNet è un set di dati standardizzato per l'apprendimento automatico della struttura delle proteine. Fornisce sequenze proteiche, strutture (secondarie e terziarie), allineamenti di sequenze multiple (MSA), matrici di punteggio specifiche per posizione (PSSM) e divisioni standardizzate di addestramento/validazione/test. ProteinNet si basa sulle valutazioni CASP biennali, che eseguono previsioni cieche di strutture proteiche recentemente risolte ma non disponibili pubblicamente, per fornire set di test che spingono le frontiere della metodologia computazionale. È organizzato come una serie di set di dati, che vanno da CASP 7 a 12 (coprendo un periodo di dieci anni), per fornire una gamma di dimensioni di set di dati che consentono la valutazione di nuovi metodi in regimi relativamente poveri di dati e ricchi di dati.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
evolutivo Tensore (Nessuno, 21) galleggiante32
id Testo corda
lunghezza Tensore int32
maschera Tensore (Nessuno,) bool
primario Sequenza(EtichettaClasse) (Nessuno,) int64
terziario Tensore (Nessuno, 3) galleggiante32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configurazione predefinita)

  • Dimensione del download : 3.18 GiB

  • Dimensione del set di dati: 2.53 GiB

  • Divisioni :

Diviso Esempi
'test' 93
'train_100' 34.557
'train_30' 10.333
'train_50' 13.024
'train_70' 15.207
'train_90' 17.611
'train_95' 17.938
'validation' 224

protein_net/casp8

  • Dimensioni del download : 4.96 GiB

  • Dimensione del set di dati: 3.55 GiB

  • Divisioni :

Diviso Esempi
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17.970
'train_70' 21,191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net/casp9

  • Dimensione del download : 6.65 GiB

  • Dimensione del set di dati: 4.54 GiB

  • Divisioni :

Diviso Esempi
'test' 116
'train_100' 60.350
'train_30' 16.973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net/casp10

  • Dimensione del download : 8.65 GiB

  • Dimensione del set di dati: 5.57 GiB

  • Divisioni :

Diviso Esempi
'test' 95
'train_100' 73,116
'train_30' 19.495
'train_50' 25.897
'train_70' 31.001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net/casp11

  • Dimensioni del download : 10.81 GiB

  • Dimensione del set di dati: 6.72 GiB

  • Divisioni :

Diviso Esempi
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36.005
'train_90' 42.507
'train_95' 43.544
'validation' 224

protein_net/casp12

  • Dimensioni del download : 13.18 GiB

  • Dimensione del set di dati: 8.05 GiB

  • Divisioni :

Diviso Esempi
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50.914
'validation' 224