- বর্ণনা :
প্রোটিননেট হল প্রোটিন গঠনের মেশিন লার্নিংয়ের জন্য একটি প্রমিত ডেটা সেট। এটি প্রোটিন সিকোয়েন্স, স্ট্রাকচার (সেকেন্ডারি এবং টারশিয়ারি), মাল্টিপল সিকোয়েন্স অ্যালাইনমেন্ট (MSAs), পজিশন-স্পেসিফিক স্কোরিং ম্যাট্রিক্স (PSSMs), এবং প্রমিত ট্রেনিং/ ভ্যালিডেশন/ টেস্ট স্প্লিট প্রদান করে। প্রোটিননেট দ্বি-বার্ষিক CASP মূল্যায়নের উপর ভিত্তি করে তৈরি করে, যা সাম্প্রতিক সমাধান করা কিন্তু সর্বজনীনভাবে অনুপলব্ধ প্রোটিন কাঠামোর অন্ধ ভবিষ্যদ্বাণী করে, যা পরীক্ষা সেট প্রদান করে যা গণনামূলক পদ্ধতির সীমানায় ঠেলে দেয়। এটি ডেটা সেটের একটি সিরিজ হিসাবে সংগঠিত হয়, CASP 7 থেকে 12 পর্যন্ত বিস্তৃত (দশ বছরের সময়কালের মধ্যে), ডেটা সেট আকারের একটি পরিসীমা প্রদান করতে যা তুলনামূলকভাবে ডেটা দুর্বল এবং ডেটা সমৃদ্ধ শাসনব্যবস্থায় নতুন পদ্ধতির মূল্যায়ন সক্ষম করে।
সোর্স কোড :
tfds.datasets.protein_net.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বিবর্তনীয় | টেনসর | (কোনটি নয়, 21) | float32 | |
আইডি | পাঠ্য | স্ট্রিং | ||
দৈর্ঘ্য | টেনসর | int32 | ||
মুখোশ | টেনসর | (কোনটিই নয়,) | bool | |
প্রাথমিক | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
তৃতীয় | টেনসর | (কোনটিই নয়, 3) | float32 |
তত্ত্বাবধান করা কী (
as_supervised
ডক হিসেবে ):('primary', 'tertiary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (ডিফল্ট কনফিগারেশন)
ডাউনলোড আকার :
3.18 GiB
ডেটাসেটের আকার :
2.53 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | ১৩,০২৪ |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- উদাহরণ ( tfds.as_dataframe ):
প্রোটিন_নেট/ক্যাস্প৮
ডাউনলোড
4.96 GiB
ডেটাসেটের আকার :
3.55 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 120 |
'train_100' | ৪৮,০৮৭ |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | ২৫,০৩৫ |
'validation' | 224 |
- উদাহরণ ( tfds.as_dataframe ):
প্রোটিন_নেট/ক্যাস্প৯
ডাউনলোড সাইজ :
6.65 GiB
ডেটাসেটের আকার :
4.54 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- উদাহরণ ( tfds.as_dataframe ):
প্রোটিন_নেট/ক্যাস্প10
ডাউনলোড আকার :
8.65 GiB
ডেটাসেটের আকার :
5.57 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- উদাহরণ ( tfds.as_dataframe ):
প্রোটিন_নেট/ক্যাস্প11
ডাউনলোড আকার :
10.81 GiB
ডেটাসেটের আকার :
6.72 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 81 |
'train_100' | ৮৭,৫৭৩ |
'train_30' | 22,344 |
'train_50' | ২৯,৯৩৬ |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- উদাহরণ ( tfds.as_dataframe ):
প্রোটিন_নেট/ক্যাস্প12
ডাউনলোড আকার :
13.18 GiB
ডেটাসেটের আকার :
8.05 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- উদাহরণ ( tfds.as_dataframe ):