- विवरण :
प्रोटीननेट प्रोटीन संरचना की मशीन सीखने के लिए एक मानकीकृत डेटा सेट है। यह प्रोटीन अनुक्रम, संरचना (द्वितीयक और तृतीयक), एकाधिक अनुक्रम संरेखण (एमएसए), स्थिति-विशिष्ट स्कोरिंग मैट्रिक्स (पीएसएसएम), और मानकीकृत प्रशिक्षण/सत्यापन/परीक्षण विभाजन प्रदान करता है। प्रोटीननेट द्विवार्षिक सीएएसपी आकलन पर बनाता है, जो हाल ही में हल किए गए लेकिन सार्वजनिक रूप से अनुपलब्ध प्रोटीन संरचनाओं की अंधा भविष्यवाणी करता है, जो कम्प्यूटेशनल पद्धति की सीमाओं को धक्का देने वाले परीक्षण सेट प्रदान करता है। यह डेटा सेट की एक श्रृंखला के रूप में आयोजित किया जाता है, जो CASP 7 से 12 तक फैला हुआ है (दस साल की अवधि को कवर करते हुए), डेटा सेट आकारों की एक श्रृंखला प्रदान करने के लिए जो अपेक्षाकृत डेटा खराब और डेटा समृद्ध शासनों में नए तरीकों के मूल्यांकन को सक्षम करता है।
स्रोत कोड :
tfds.datasets.protein_net.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
विकासवादी | टेन्सर | (कोई नहीं, 21) | फ्लोट32 | |
पहचान | मूलपाठ | डोरी | ||
लंबाई | टेन्सर | int32 | ||
मुखौटा | टेन्सर | (कोई भी नहीं,) | बूल | |
प्राथमिक | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
तृतीयक | टेन्सर | (कोई नहीं, 3) | फ्लोट32 |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('primary', 'tertiary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
प्रोटीन_नेट/casp7 (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड का आकार :
3.18 GiB
डेटासेट का आकार :
2.53 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- उदाहरण ( tfds.as_dataframe ):
प्रोटीन_नेट/casp8
डाउनलोड आकार :
4.96 GiB
डेटासेट का आकार :
3.55 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- उदाहरण ( tfds.as_dataframe ):
प्रोटीन_नेट/casp9
डाउनलोड का आकार :
6.65 GiB
डेटासेट का आकार :
4.54 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- उदाहरण ( tfds.as_dataframe ):
प्रोटीन_नेट/casp10
डाउनलोड का आकार :
8.65 GiB
डेटासेट का आकार :
5.57 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- उदाहरण ( tfds.as_dataframe ):
प्रोटीन_नेट/casp11
डाउनलोड का आकार :
10.81 GiB
डेटासेट का आकार :
6.72 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- उदाहरण ( tfds.as_dataframe ):
प्रोटीन_नेट/casp12
डाउनलोड का आकार :
13.18 GiB
डेटासेट का आकार :
8.05 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- उदाहरण ( tfds.as_dataframe ):