कार्डियोटॉक्स

  • विवरण :

ड्रग कार्डियोटॉक्सिसिटी डेटासेट [1-2] एक अणु वर्गीकरण कार्य है जो एचईआरजी लक्ष्य, दिल की धड़कन ताल से जुड़े प्रोटीन को बांधने के कारण होने वाली कार्डियोटॉक्सिसिटी का पता लगाता है। डेटा hERG गतिविधि के साथ 9000 से अधिक अणुओं को शामिल करता है।

  1. डेटा को चार भागों में विभाजित किया गया है: ट्रेन, टेस्ट-आईआईडी, टेस्ट-OOD1, टेस्ट-OOD2।

  2. डेटासेट में प्रत्येक अणु में 2डी ग्राफ एनोटेशन होते हैं जो ग्राफ न्यूरल नेटवर्क मॉडलिंग की सुविधा के लिए डिज़ाइन किए गए हैं। नोड अणु के परमाणु हैं और किनारे बंधन हैं। प्रत्येक परमाणु को परमाणु प्रकार जैसे बुनियादी परमाणु जानकारी को वेक्टर एन्कोडिंग के रूप में दर्शाया जाता है। बांड पर भी यही तर्क लागू होता है।

  3. हम ग्राफ डोमेन में वितरणात्मक बदलाव पर अनुसंधान की सुविधा के लिए परीक्षण सेट में प्रत्येक अणु के लिए टैनिमोटो फिंगरप्रिंट दूरी (प्रशिक्षण डेटा के लिए) शामिल करते हैं।

प्रत्येक उदाहरण के लिए, सुविधाओं में शामिल हैं: परमाणु: आकार (60, 27) के साथ एक 2डी टेंसर नोड सुविधाओं को संग्रहीत करता है। 60 से कम परमाणुओं वाले अणु शून्य से भरे होते हैं। प्रत्येक परमाणु में 27 परमाणु गुण होते हैं। जोड़े: आकार (60, 60, 12) के साथ एक 3D टेंसर जिसमें किनारे की विशेषताएं हैं। प्रत्येक किनारे में 12 किनारे की विशेषताएं हैं। atom_mask: आकार (60, ) के साथ एक 1D टेंसर नोड मास्क का भंडारण करता है। 1 इंगित करता है कि संबंधित परमाणु वास्तविक है, अन्यथा एक गद्देदार। जोड़ी_मास्क: आकार (60, 60) के साथ एक 2डी टेंसर किनारे के मुखौटे को संग्रहित करता है। 1 इंगित करता है कि संबंधित किनारा वास्तविक है, अन्यथा एक गद्देदार है। सक्रिय: एक गर्म वेक्टर इंगित करता है कि अणु विषाक्त है या नहीं। [0, 1] इंगित करता है कि यह विषाक्त है, अन्यथा [1, 0] गैर विषैले।

संदर्भ

[1]: वीबी सिरमशेट्टी एट अल। बिग डेटा युग में hERG चैनल निषेध की भविष्यवाणी के लिए आर्टिफिशियल इंटेलिजेंस विधियों का महत्वपूर्ण मूल्यांकन। जेसीआईएम, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: के. हान एट अल। डिस्ट्रीब्यूशनल शिफ्ट के तहत ड्रग डिस्कवरी के लिए रिलायबल ग्राफ न्यूरल नेटवर्क। NeurIPS DistShift वर्कशॉप 2021. https://arxiv.org/abs/2111.12951

विभाजित करना उदाहरण
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • फ़ीचर संरचना :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
सक्रिय टेन्सर (2,) int64
atom_mask टेन्सर (60,) फ्लोट32
परमाणुओं टेन्सर (60, 27) फ्लोट32
dist2topk_nbs टेन्सर (1,) फ्लोट32
अणु_आईडी टेन्सर डोरी
जोड़ी_मास्क टेन्सर (60, 60) फ्लोट32
जोड़े टेन्सर (60, 60, 12) फ्लोट32
  • उद्धरण :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}