- विवरण :
ड्रग कार्डियोटॉक्सिसिटी डेटासेट [1-2] एक अणु वर्गीकरण कार्य है जो एचईआरजी लक्ष्य, दिल की धड़कन ताल से जुड़े प्रोटीन को बांधने के कारण होने वाली कार्डियोटॉक्सिसिटी का पता लगाता है। डेटा hERG गतिविधि के साथ 9000 से अधिक अणुओं को शामिल करता है।
डेटा को चार भागों में विभाजित किया गया है: ट्रेन, टेस्ट-आईआईडी, टेस्ट-OOD1, टेस्ट-OOD2।
डेटासेट में प्रत्येक अणु में 2डी ग्राफ एनोटेशन होते हैं जो ग्राफ न्यूरल नेटवर्क मॉडलिंग की सुविधा के लिए डिज़ाइन किए गए हैं। नोड अणु के परमाणु हैं और किनारे बंधन हैं। प्रत्येक परमाणु को परमाणु प्रकार जैसे बुनियादी परमाणु जानकारी को वेक्टर एन्कोडिंग के रूप में दर्शाया जाता है। बांड पर भी यही तर्क लागू होता है।
हम ग्राफ डोमेन में वितरणात्मक बदलाव पर अनुसंधान की सुविधा के लिए परीक्षण सेट में प्रत्येक अणु के लिए टैनिमोटो फिंगरप्रिंट दूरी (प्रशिक्षण डेटा के लिए) शामिल करते हैं।
प्रत्येक उदाहरण के लिए, सुविधाओं में शामिल हैं: परमाणु: आकार (60, 27) के साथ एक 2डी टेंसर नोड सुविधाओं को संग्रहीत करता है। 60 से कम परमाणुओं वाले अणु शून्य से भरे होते हैं। प्रत्येक परमाणु में 27 परमाणु गुण होते हैं। जोड़े: आकार (60, 60, 12) के साथ एक 3D टेंसर जिसमें किनारे की विशेषताएं हैं। प्रत्येक किनारे में 12 किनारे की विशेषताएं हैं। atom_mask: आकार (60, ) के साथ एक 1D टेंसर नोड मास्क का भंडारण करता है। 1 इंगित करता है कि संबंधित परमाणु वास्तविक है, अन्यथा एक गद्देदार। जोड़ी_मास्क: आकार (60, 60) के साथ एक 2डी टेंसर किनारे के मुखौटे को संग्रहित करता है। 1 इंगित करता है कि संबंधित किनारा वास्तविक है, अन्यथा एक गद्देदार है। सक्रिय: एक गर्म वेक्टर इंगित करता है कि अणु विषाक्त है या नहीं। [0, 1] इंगित करता है कि यह विषाक्त है, अन्यथा [1, 0] गैर विषैले।
संदर्भ
[1]: वीबी सिरमशेट्टी एट अल। बिग डेटा युग में hERG चैनल निषेध की भविष्यवाणी के लिए आर्टिफिशियल इंटेलिजेंस विधियों का महत्वपूर्ण मूल्यांकन। जेसीआईएम, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: के. हान एट अल। डिस्ट्रीब्यूशनल शिफ्ट के तहत ड्रग डिस्कवरी के लिए रिलायबल ग्राफ न्यूरल नेटवर्क। NeurIPS DistShift वर्कशॉप 2021. https://arxiv.org/abs/2111.12951
मुखपृष्ठ : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
स्रोत कोड :
tfds.graphs.cardiotox.Cardiotox
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown size
डेटासेट का आकार :
1.66 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1,631 |
- फ़ीचर संरचना :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
सक्रिय | टेन्सर | (2,) | int64 | |
atom_mask | टेन्सर | (60,) | फ्लोट32 | |
परमाणुओं | टेन्सर | (60, 27) | फ्लोट32 | |
dist2topk_nbs | टेन्सर | (1,) | फ्लोट32 | |
अणु_आईडी | टेन्सर | डोरी | ||
जोड़ी_मास्क | टेन्सर | (60, 60) | फ्लोट32 | |
जोड़े | टेन्सर | (60, 60, 12) | फ्लोट32 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}