- الوصف :
ProteinNet عبارة عن مجموعة بيانات موحدة للتعلم الآلي لبنية البروتين. يوفر تسلسل البروتين ، الهياكل (الثانوية والثالثية) ، محاذاة التسلسل المتعددة (MSAs) ، مصفوفات التسجيل الخاصة بالموقع (PSSMs) ، وتقسيمات التدريب / التحقق / الاختبار الموحدة. يعتمد موقع ProteinNet على تقييمات CASP التي تُجرى كل سنتين ، والتي تنفذ تنبؤات عمياء لهياكل البروتين التي تم حلها مؤخرًا ولكنها غير متاحة للجمهور ، لتوفير مجموعات اختبار تدفع حدود المنهجية الحسابية. وهي منظمة كسلسلة من مجموعات البيانات ، تمتد من 7 إلى 12 (تغطي فترة عشر سنوات) ، لتوفير مجموعة من أحجام مجموعات البيانات التي تمكن من تقييم الأساليب الجديدة في الأنظمة الفقيرة نسبيًا بالبيانات والغنية بالبيانات.
الصفحة الرئيسية : https://github.com/aqlaboratory/proteinnet
كود المصدر :
tfds.datasets.protein_net.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
تطوري | موتر | (لا شيء ، 21) | تعويم 32 | |
هوية شخصية | نص | سلسلة | ||
الطول | موتر | int32 | ||
قناع | موتر | (لا أحد،) | منطقي | |
الأولية | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
بعد الثانوي | موتر | (لا شيء ، 3) | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):('primary', 'tertiary')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net / casp7 (التكوين الافتراضي)
حجم التحميل :
3.18 GiB
حجم مجموعة البيانات :
2.53 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 93 |
'train_100' | 34557 |
'train_30' | 10333 |
'train_50' | 13024 |
'train_70' | 15207 |
'train_90' | 17،611 |
'train_95' | 17،938 |
'validation' | 224 |
- أمثلة ( tfds.as_dataframe ):
بروتين_net / كاسبي 8
حجم التحميل :
4.96 GiB
حجم مجموعة البيانات :
3.55 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13881 |
'train_50' | 17،970 |
'train_70' | 21191 |
'train_90' | 24556 |
'train_95' | 25،035 |
'validation' | 224 |
- أمثلة ( tfds.as_dataframe ):
بروتين_net / كاسبي 9
حجم التحميل :
6.65 GiB
حجم مجموعة البيانات :
4.54 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 116 |
'train_100' | 60350 |
'train_30' | 16973 |
'train_50' | 22172 |
'train_70' | 26263 |
'train_90' | 30.513 |
'train_95' | 31128 |
'validation' | 224 |
- أمثلة ( tfds.as_dataframe ):
بروتين_net / الكاسب 10
حجم التحميل : ٨ ٫
8.65 GiB
حجم مجموعة البيانات :
5.57 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 95 |
'train_100' | 73116 |
'train_30' | 19495 |
'train_50' | 25897 |
'train_70' | 31،001 |
'train_90' | 36258 |
'train_95' | 37،033 |
'validation' | 224 |
- أمثلة ( tfds.as_dataframe ):
بروتين_net / الكاسب 11
حجم التحميل :
10.81 GiB
حجم مجموعة البيانات :
6.72 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 81 |
'train_100' | 87573 |
'train_30' | 22344 |
'train_50' | 29936 |
'train_70' | 36،005 |
'train_90' | 42507 |
'train_95' | 43544 |
'validation' | 224 |
- أمثلة ( tfds.as_dataframe ):
بروتين_net / الكاسب 12
حجم التحميل :
13.18 GiB
حجم مجموعة البيانات :
8.05 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25299 |
'train_50' | 34،039 |
'train_70' | 41.522 |
'train_90' | 49600 |
'train_95' | 50914 |
'validation' | 224 |
- أمثلة ( tfds.as_dataframe ):