কার্ডিওটক্স

  • বর্ণনা :

ড্রাগ কার্ডিওটক্সিসিটি ডেটাসেট [1-2] হল একটি অণু শ্রেণীবিভাগের কাজ যা হৃৎপিণ্ডের স্পন্দনের তালের সাথে যুক্ত একটি প্রোটিন এইচইআরজি টার্গেট বাঁধাই করার কারণে সৃষ্ট কার্ডিওটক্সিসিটি সনাক্ত করা। ডেটা 9000 টিরও বেশি অণুকে এইচইআরজি কার্যকলাপ সহ কভার করে।

  1. ডেটা চারটি ভাগে বিভক্ত: ট্রেন, টেস্ট-আইআইডি, টেস্ট-ওড১, টেস্ট-ওড২।

  2. ডেটাসেটের প্রতিটি অণুতে 2D গ্রাফ টীকা রয়েছে যা গ্রাফ নিউরাল নেটওয়ার্ক মডেলিংকে সহজতর করার জন্য ডিজাইন করা হয়েছে। নোডগুলি অণুর পরমাণু এবং প্রান্তগুলি বন্ধন। প্রতিটি পরমাণুকে একটি ভেক্টর এনকোডিং মৌলিক পরমাণু তথ্য যেমন পরমাণুর প্রকার হিসাবে উপস্থাপন করা হয়। অনুরূপ যুক্তি বন্ড প্রযোজ্য.

  3. আমরা গ্রাফ ডোমেনে বন্টনগত পরিবর্তনের উপর গবেষণার সুবিধার্থে পরীক্ষার সেটে প্রতিটি অণুর জন্য তানিমোটো ফিঙ্গারপ্রিন্ট দূরত্ব (প্রশিক্ষণ ডেটার জন্য) অন্তর্ভুক্ত করি।

প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: পরমাণু: আকৃতি সহ একটি 2D টেনসর (60, 27) স্টোরিং নোড বৈশিষ্ট্য। 60 টিরও কম পরমাণু সহ অণুগুলি শূন্য দিয়ে প্যাড করা হয়। প্রতিটি পরমাণুর 27টি পরমাণুর বৈশিষ্ট্য রয়েছে। জোড়া: আকৃতি সহ একটি 3D টেনসর (60, 60, 12) স্টোরিং এজ বৈশিষ্ট্য। প্রতিটি প্রান্তে 12টি প্রান্ত বৈশিষ্ট্য রয়েছে। atom_mask: আকৃতি (60, ) স্টোরিং নোড মাস্ক সহ একটি 1D টেনসর। 1 নির্দেশ করে সংশ্লিষ্ট পরমাণুটি বাস্তব, অন্যথায় একটি প্যাডেড। pair_mask: আকৃতি সহ একটি 2D টেনসর (60, 60) স্টোরিং এজ মাস্ক। 1 নির্দেশ করে সংশ্লিষ্ট প্রান্তটি বাস্তব, অন্যথায় একটি প্যাডেড। সক্রিয়: একটি এক-গরম ভেক্টর নির্দেশ করে যে অণুটি বিষাক্ত কিনা। [0, 1] নির্দেশ করে এটি বিষাক্ত, অন্যথায় [1, 0] অ-বিষাক্ত।

তথ্যসূত্র

[১]: ভিবি সিরামশেট্টি এবং অন্যান্য। বিগ ডেটা যুগে এইচইআরজি চ্যানেল ইনহিবিশনের পূর্বাভাসের জন্য কৃত্রিম বুদ্ধিমত্তা পদ্ধতির সমালোচনামূলক মূল্যায়ন। JCIM, 2020। https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[২]: কে. হান এট আল। ডিস্ট্রিবিউশনাল শিফটের অধীনে ড্রাগ আবিষ্কারের জন্য নির্ভরযোগ্য গ্রাফ নিউরাল নেটওয়ার্ক। নিউরিআইপিএস ডিস্টশিফট ওয়ার্কশপ 2021। https://arxiv.org/abs/2111.12951

বিভক্ত উদাহরণ
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
সক্রিয় টেনসর (2,) int64
পরমাণু_মাস্ক টেনসর (60,) float32
পরমাণু টেনসর (60, 27) float32
dist2topk_nbs টেনসর (1,) float32
molecule_id টেনসর স্ট্রিং
pair_mask টেনসর (60, 60) float32
জোড়া টেনসর (60, 60, 12) float32
  • উদ্ধৃতি :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}