- Descriptif :
ProteinNet est un ensemble de données standardisé pour l'apprentissage automatique de la structure des protéines. Il fournit des séquences de protéines, des structures (secondaires et tertiaires), des alignements de séquences multiples (MSA), des matrices de notation spécifiques à la position (PSSM) et des fractionnements de formation/validation/test standardisés. ProteinNet s'appuie sur les évaluations biennales du CASP, qui effectuent des prédictions à l'aveugle de structures protéiques récemment résolues mais non disponibles publiquement, pour fournir des ensembles de tests qui repoussent les frontières de la méthodologie informatique. Il est organisé en une série d'ensembles de données, couvrant les CASP 7 à 12 (couvrant une période de dix ans), pour fournir une gamme de tailles d'ensembles de données qui permettent l'évaluation de nouvelles méthodes dans des régimes relativement pauvres en données et riches en données.
Page d' accueil : https://github.com/aqlaboratory/proteinnet
Code source :
tfds.datasets.protein_net.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
évolutionniste | Tenseur | (Aucun, 21) | float32 | |
identifiant | Texte | chaîne de caractères | ||
longueur | Tenseur | int32 | ||
masque | Tenseur | (Aucun,) | bourdonner | |
primaire | Séquence(ClassLabel) | (Aucun,) | int64 | |
tertiaire | Tenseur | (Aucun, 3) | float32 |
Clés supervisées (Voir
as_supervised
doc ):('primary', 'tertiary')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configuration par défaut)
Taille du téléchargement :
3.18 GiB
Taille du jeu de données :
2.53 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 93 |
'train_100' | 34 557 |
'train_30' | 10 333 |
'train_50' | 13 024 |
'train_70' | 15 207 |
'train_90' | 17 611 |
'train_95' | 17 938 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp8
Taille du téléchargement :
4.96 GiB
Taille du jeu de données :
3.55 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 120 |
'train_100' | 48 087 |
'train_30' | 13 881 |
'train_50' | 17 970 |
'train_70' | 21 191 |
'train_90' | 24 556 |
'train_95' | 25 035 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp9
Taille du téléchargement :
6.65 GiB
Taille du jeu de données :
4.54 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 116 |
'train_100' | 60 350 |
'train_30' | 16 973 |
'train_50' | 22 172 |
'train_70' | 26 263 |
'train_90' | 30 513 |
'train_95' | 31 128 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp10
Taille du téléchargement :
8.65 GiB
Taille du jeu de données :
5.57 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 95 |
'train_100' | 73 116 |
'train_30' | 19 495 |
'train_50' | 25 897 |
'train_70' | 31 001 |
'train_90' | 36 258 |
'train_95' | 37 033 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp11
Taille du téléchargement :
10.81 GiB
Taille du jeu de données :
6.72 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 81 |
'train_100' | 87 573 |
'train_30' | 22 344 |
'train_50' | 29 936 |
'train_70' | 36 005 |
'train_90' | 42 507 |
'train_95' | 43 544 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):
protein_net/casp12
Taille du téléchargement :
13.18 GiB
Taille du jeu de données :
8.05 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 40 |
'train_100' | 104 059 |
'train_30' | 25 299 |
'train_50' | 34 039 |
'train_70' | 41 522 |
'train_90' | 49 600 |
'train_95' | 50 914 |
'validation' | 224 |
- Exemples ( tfds.as_dataframe ):