protein_net

  • Descriptif :

ProteinNet est un ensemble de données standardisé pour l'apprentissage automatique de la structure des protéines. Il fournit des séquences de protéines, des structures (secondaires et tertiaires), des alignements de séquences multiples (MSA), des matrices de notation spécifiques à la position (PSSM) et des fractionnements de formation/validation/test standardisés. ProteinNet s'appuie sur les évaluations biennales du CASP, qui effectuent des prédictions à l'aveugle de structures protéiques récemment résolues mais non disponibles publiquement, pour fournir des ensembles de tests qui repoussent les frontières de la méthodologie informatique. Il est organisé en une série d'ensembles de données, couvrant les CASP 7 à 12 (couvrant une période de dix ans), pour fournir une gamme de tailles d'ensembles de données qui permettent l'évaluation de nouvelles méthodes dans des régimes relativement pauvres en données et riches en données.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
évolutionniste Tenseur (Aucun, 21) float32
identifiant Texte chaîne de caractères
longueur Tenseur int32
masque Tenseur (Aucun,) bourdonner
primaire Séquence(ClassLabel) (Aucun,) int64
tertiaire Tenseur (Aucun, 3) float32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configuration par défaut)

  • Taille du téléchargement : 3.18 GiB

  • Taille du jeu de données : 2.53 GiB

  • Fractionnements :

Diviser Exemples
'test' 93
'train_100' 34 557
'train_30' 10 333
'train_50' 13 024
'train_70' 15 207
'train_90' 17 611
'train_95' 17 938
'validation' 224

protein_net/casp8

  • Taille du téléchargement : 4.96 GiB

  • Taille du jeu de données : 3.55 GiB

  • Fractionnements :

Diviser Exemples
'test' 120
'train_100' 48 087
'train_30' 13 881
'train_50' 17 970
'train_70' 21 191
'train_90' 24 556
'train_95' 25 035
'validation' 224

protein_net/casp9

  • Taille du téléchargement : 6.65 GiB

  • Taille du jeu de données : 4.54 GiB

  • Fractionnements :

Diviser Exemples
'test' 116
'train_100' 60 350
'train_30' 16 973
'train_50' 22 172
'train_70' 26 263
'train_90' 30 513
'train_95' 31 128
'validation' 224

protein_net/casp10

  • Taille du téléchargement : 8.65 GiB

  • Taille du jeu de données : 5.57 GiB

  • Fractionnements :

Diviser Exemples
'test' 95
'train_100' 73 116
'train_30' 19 495
'train_50' 25 897
'train_70' 31 001
'train_90' 36 258
'train_95' 37 033
'validation' 224

protein_net/casp11

  • Taille du téléchargement : 10.81 GiB

  • Taille du jeu de données : 6.72 GiB

  • Fractionnements :

Diviser Exemples
'test' 81
'train_100' 87 573
'train_30' 22 344
'train_50' 29 936
'train_70' 36 005
'train_90' 42 507
'train_95' 43 544
'validation' 224

protein_net/casp12

  • Taille du téléchargement : 13.18 GiB

  • Taille du jeu de données : 8.05 GiB

  • Fractionnements :

Diviser Exemples
'test' 40
'train_100' 104 059
'train_30' 25 299
'train_50' 34 039
'train_70' 41 522
'train_90' 49 600
'train_95' 50 914
'validation' 224