प्रोटीन_नेट

  • विवरण :

प्रोटीननेट प्रोटीन संरचना की मशीन सीखने के लिए एक मानकीकृत डेटा सेट है। यह प्रोटीन अनुक्रम, संरचना (द्वितीयक और तृतीयक), एकाधिक अनुक्रम संरेखण (एमएसए), स्थिति-विशिष्ट स्कोरिंग मैट्रिक्स (पीएसएसएम), और मानकीकृत प्रशिक्षण/सत्यापन/परीक्षण विभाजन प्रदान करता है। प्रोटीननेट द्विवार्षिक सीएएसपी आकलन पर बनाता है, जो हाल ही में हल किए गए लेकिन सार्वजनिक रूप से अनुपलब्ध प्रोटीन संरचनाओं की अंधा भविष्यवाणी करता है, जो कम्प्यूटेशनल पद्धति की सीमाओं को धक्का देने वाले परीक्षण सेट प्रदान करता है। यह डेटा सेट की एक श्रृंखला के रूप में आयोजित किया जाता है, जो CASP 7 से 12 तक फैला हुआ है (दस साल की अवधि को कवर करते हुए), डेटा सेट आकारों की एक श्रृंखला प्रदान करने के लिए जो अपेक्षाकृत डेटा खराब और डेटा समृद्ध शासनों में नए तरीकों के मूल्यांकन को सक्षम करता है।

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
विकासवादी टेन्सर (कोई नहीं, 21) फ्लोट32
पहचान मूलपाठ डोरी
लंबाई टेन्सर int32
मुखौटा टेन्सर (कोई भी नहीं,) बूल
प्राथमिक अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
तृतीयक टेन्सर (कोई नहीं, 3) फ्लोट32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

प्रोटीन_नेट/casp7 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डाउनलोड का आकार : 3.18 GiB

  • डेटासेट का आकार : 2.53 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

प्रोटीन_नेट/casp8

  • डाउनलोड आकार : 4.96 GiB

  • डेटासेट का आकार : 3.55 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

प्रोटीन_नेट/casp9

  • डाउनलोड का आकार : 6.65 GiB

  • डेटासेट का आकार : 4.54 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

प्रोटीन_नेट/casp10

  • डाउनलोड का आकार : 8.65 GiB

  • डेटासेट का आकार : 5.57 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

प्रोटीन_नेट/casp11

  • डाउनलोड का आकार : 10.81 GiB

  • डेटासेट का आकार : 6.72 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

प्रोटीन_नेट/casp12

  • डाउनलोड का आकार : 13.18 GiB

  • डेटासेट का आकार : 8.05 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224