- বর্ণনা :
ড্রাগ কার্ডিওটক্সিসিটি ডেটাসেট [1-2] হল একটি অণু শ্রেণীবিভাগের কাজ যা হৃৎপিণ্ডের স্পন্দনের তালের সাথে যুক্ত একটি প্রোটিন এইচইআরজি টার্গেট বাঁধাই করার কারণে সৃষ্ট কার্ডিওটক্সিসিটি সনাক্ত করা। ডেটা 9000 টিরও বেশি অণুকে এইচইআরজি কার্যকলাপ সহ কভার করে।
ডেটা চারটি ভাগে বিভক্ত: ট্রেন, টেস্ট-আইআইডি, টেস্ট-ওড১, টেস্ট-ওড২।
ডেটাসেটের প্রতিটি অণুতে 2D গ্রাফ টীকা রয়েছে যা গ্রাফ নিউরাল নেটওয়ার্ক মডেলিংকে সহজতর করার জন্য ডিজাইন করা হয়েছে। নোডগুলি অণুর পরমাণু এবং প্রান্তগুলি বন্ধন। প্রতিটি পরমাণুকে একটি ভেক্টর এনকোডিং মৌলিক পরমাণু তথ্য যেমন পরমাণুর প্রকার হিসাবে উপস্থাপন করা হয়। অনুরূপ যুক্তি বন্ড প্রযোজ্য.
আমরা গ্রাফ ডোমেনে বন্টনগত পরিবর্তনের উপর গবেষণার সুবিধার্থে পরীক্ষার সেটে প্রতিটি অণুর জন্য তানিমোটো ফিঙ্গারপ্রিন্ট দূরত্ব (প্রশিক্ষণ ডেটার জন্য) অন্তর্ভুক্ত করি।
প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: পরমাণু: আকৃতি সহ একটি 2D টেনসর (60, 27) স্টোরিং নোড বৈশিষ্ট্য। 60 টিরও কম পরমাণু সহ অণুগুলি শূন্য দিয়ে প্যাড করা হয়। প্রতিটি পরমাণুর 27টি পরমাণুর বৈশিষ্ট্য রয়েছে। জোড়া: আকৃতি সহ একটি 3D টেনসর (60, 60, 12) স্টোরিং এজ বৈশিষ্ট্য। প্রতিটি প্রান্তে 12টি প্রান্ত বৈশিষ্ট্য রয়েছে। atom_mask: আকৃতি (60, ) স্টোরিং নোড মাস্ক সহ একটি 1D টেনসর। 1 নির্দেশ করে সংশ্লিষ্ট পরমাণুটি বাস্তব, অন্যথায় একটি প্যাডেড। pair_mask: আকৃতি সহ একটি 2D টেনসর (60, 60) স্টোরিং এজ মাস্ক। 1 নির্দেশ করে সংশ্লিষ্ট প্রান্তটি বাস্তব, অন্যথায় একটি প্যাডেড। সক্রিয়: একটি এক-গরম ভেক্টর নির্দেশ করে যে অণুটি বিষাক্ত কিনা। [0, 1] নির্দেশ করে এটি বিষাক্ত, অন্যথায় [1, 0] অ-বিষাক্ত।
তথ্যসূত্র
[১]: ভিবি সিরামশেট্টি এবং অন্যান্য। বিগ ডেটা যুগে এইচইআরজি চ্যানেল ইনহিবিশনের পূর্বাভাসের জন্য কৃত্রিম বুদ্ধিমত্তা পদ্ধতির সমালোচনামূলক মূল্যায়ন। JCIM, 2020। https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[২]: কে. হান এট আল। ডিস্ট্রিবিউশনাল শিফটের অধীনে ড্রাগ আবিষ্কারের জন্য নির্ভরযোগ্য গ্রাফ নিউরাল নেটওয়ার্ক। নিউরিআইপিএস ডিস্টশিফট ওয়ার্কশপ 2021। https://arxiv.org/abs/2111.12951
হোমপেজ : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
সোর্স কোড :
tfds.graphs.cardiotox.Cardiotox
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
1.66 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1,631 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
সক্রিয় | টেনসর | (2,) | int64 | |
পরমাণু_মাস্ক | টেনসর | (60,) | float32 | |
পরমাণু | টেনসর | (60, 27) | float32 | |
dist2topk_nbs | টেনসর | (1,) | float32 | |
molecule_id | টেনসর | স্ট্রিং | ||
pair_mask | টেনসর | (60, 60) | float32 | |
জোড়া | টেনসর | (60, 60, 12) | float32 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}