- Descrizione :
ProteinNet è un set di dati standardizzato per l'apprendimento automatico della struttura delle proteine. Fornisce sequenze proteiche, strutture (secondarie e terziarie), allineamenti di sequenze multiple (MSA), matrici di punteggio specifiche per posizione (PSSM) e divisioni standardizzate di addestramento/validazione/test. ProteinNet si basa sulle valutazioni CASP biennali, che eseguono previsioni cieche di strutture proteiche recentemente risolte ma non disponibili pubblicamente, per fornire set di test che spingono le frontiere della metodologia computazionale. È organizzato come una serie di set di dati, che vanno da CASP 7 a 12 (coprendo un periodo di dieci anni), per fornire una gamma di dimensioni di set di dati che consentono la valutazione di nuovi metodi in regimi relativamente poveri di dati e ricchi di dati.
Homepage : https://github.com/aqlaboratory/proteinnet
Codice sorgente :
tfds.datasets.protein_net.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
evolutivo | Tensore | (Nessuno, 21) | galleggiante32 | |
id | Testo | corda | ||
lunghezza | Tensore | int32 | ||
maschera | Tensore | (Nessuno,) | bool | |
primario | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
terziario | Tensore | (Nessuno, 3) | galleggiante32 |
Chiavi supervisionate (vedi
as_supervised
doc ):('primary', 'tertiary')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configurazione predefinita)
Dimensione del download :
3.18 GiB
Dimensione del set di dati:
2.53 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp8
Dimensioni del download :
4.96 GiB
Dimensione del set di dati:
3.55 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21,191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp9
Dimensione del download :
6.65 GiB
Dimensione del set di dati:
4.54 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp10
Dimensione del download :
8.65 GiB
Dimensione del set di dati:
5.57 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31.001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp11
Dimensioni del download :
10.81 GiB
Dimensione del set di dati:
6.72 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36.005 |
'train_90' | 42.507 |
'train_95' | 43.544 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):
protein_net/casp12
Dimensioni del download :
13.18 GiB
Dimensione del set di dati:
8.05 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Esempi ( tfds.as_dataframe ):