প্রোটিন_নেট

  • বর্ণনা :

প্রোটিননেট হল প্রোটিন গঠনের মেশিন লার্নিংয়ের জন্য একটি প্রমিত ডেটা সেট। এটি প্রোটিন সিকোয়েন্স, স্ট্রাকচার (সেকেন্ডারি এবং টারশিয়ারি), মাল্টিপল সিকোয়েন্স অ্যালাইনমেন্ট (MSAs), পজিশন-স্পেসিফিক স্কোরিং ম্যাট্রিক্স (PSSMs), এবং প্রমিত ট্রেনিং/ ভ্যালিডেশন/ টেস্ট স্প্লিট প্রদান করে। প্রোটিননেট দ্বি-বার্ষিক CASP মূল্যায়নের উপর ভিত্তি করে তৈরি করে, যা সাম্প্রতিক সমাধান করা কিন্তু সর্বজনীনভাবে অনুপলব্ধ প্রোটিন কাঠামোর অন্ধ ভবিষ্যদ্বাণী করে, যা পরীক্ষা সেট প্রদান করে যা গণনামূলক পদ্ধতির সীমানায় ঠেলে দেয়। এটি ডেটা সেটের একটি সিরিজ হিসাবে সংগঠিত হয়, CASP 7 থেকে 12 পর্যন্ত বিস্তৃত (দশ বছরের সময়কালের মধ্যে), ডেটা সেট আকারের একটি পরিসীমা প্রদান করতে যা তুলনামূলকভাবে ডেটা দুর্বল এবং ডেটা সমৃদ্ধ শাসনব্যবস্থায় নতুন পদ্ধতির মূল্যায়ন সক্ষম করে।

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
বিবর্তনীয় টেনসর (কোনটি নয়, 21) float32
আইডি পাঠ্য স্ট্রিং
দৈর্ঘ্য টেনসর int32
মুখোশ টেনসর (কোনটিই নয়,) bool
প্রাথমিক সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
তৃতীয় টেনসর (কোনটিই নয়, 3) float32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (ডিফল্ট কনফিগারেশন)

  • ডাউনলোড আকার : 3.18 GiB

  • ডেটাসেটের আকার : 2.53 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' ১৩,০২৪
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

প্রোটিন_নেট/ক্যাস্প৮

  • ডাউনলোড 4.96 GiB

  • ডেটাসেটের আকার : 3.55 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 120
'train_100' ৪৮,০৮৭
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' ২৫,০৩৫
'validation' 224

প্রোটিন_নেট/ক্যাস্প৯

  • ডাউনলোড সাইজ : 6.65 GiB

  • ডেটাসেটের আকার : 4.54 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

প্রোটিন_নেট/ক্যাস্প10

  • ডাউনলোড আকার : 8.65 GiB

  • ডেটাসেটের আকার : 5.57 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

প্রোটিন_নেট/ক্যাস্প11

  • ডাউনলোড আকার : 10.81 GiB

  • ডেটাসেটের আকার : 6.72 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 81
'train_100' ৮৭,৫৭৩
'train_30' 22,344
'train_50' ২৯,৯৩৬
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

প্রোটিন_নেট/ক্যাস্প12

  • ডাউনলোড আকার : 13.18 GiB

  • ডেটাসেটের আকার : 8.05 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224