- Açıklama :
İlaç Kardiyotoksisitesi veri seti [1-2], kalp atışı ritmiyle ilişkili bir protein olan hERG hedefinin bağlanmasının neden olduğu kardiyotoksisiteyi tespit etmeye yönelik bir molekül sınıflandırma görevidir. Veriler, hERG aktivitesine sahip 9000'den fazla molekülü kapsar.
Veriler dört bölüme ayrılmıştır: train, test-iid, test-ood1, test-ood2.
Veri kümesindeki her molekül, grafik sinir ağı modellemesini kolaylaştırmak için tasarlanmış 2B grafik ek açıklamalarına sahiptir. Düğümler molekülün atomlarıdır ve kenarlar bağlardır. Her atom, atom türü gibi temel atom bilgilerini kodlayan bir vektör olarak temsil edilir. Benzer mantık tahviller için de geçerlidir.
Grafik alanındaki dağılımsal kayma üzerine araştırmayı kolaylaştırmak için test setlerindeki her molekül için Tanimoto parmak izi mesafesini (eğitim verilerine) dahil ediyoruz.
Her örnek için özellikler şunları içerir: atomlar: düğüm özelliklerini depolayan şekle (60, 27) sahip bir 2B tensör. 60'tan az atomlu moleküller sıfırlarla doldurulur. Her atomun 27 atom özelliği vardır. çiftler: kenar özelliklerini depolayan şekle (60, 60, 12) sahip bir 3B tensör. Her kenarın 12 kenar özelliği vardır. atom_mask: düğüm maskelerini depolayan şekle (60, ) sahip bir 1D tensör. 1 karşılık gelen atomun gerçek olduğunu, aksi takdirde dolgulu olduğunu belirtir. pair_mask: kenar maskelerini depolayan şekle (60, 60) sahip bir 2B tensör. 1, karşılık gelen kenarın gerçek olduğunu, aksi takdirde dolgulu olduğunu gösterir. aktif: molekülün toksik olup olmadığını gösteren bir sıcak vektör. [0, 1] toksik olduğunu, aksi takdirde [1, 0] toksik olmadığını gösterir.
Referanslar
[1]: VB Siramshetty ve ark. Büyük Veri Çağında hERG Kanal İnhibisyonunun Tahmini için Yapay Zeka Yöntemlerinin Kritik Değerlendirmesi. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han ve ark. Dağıtım Değişimi Altında İlaç Keşfi için Güvenilir Grafik Sinir Ağları. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951
Ana sayfa : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoksisite
Kaynak kodu :
tfds.graphs.cardiotox.Cardiotox
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
1.66 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6.523 |
'validation' | 1.631 |
- Özellik yapısı :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
aktif | tensör | (2,) | int64 | |
atom_maskesi | tensör | (60,) | şamandıra32 | |
atomlar | tensör | (60, 27) | şamandıra32 | |
dist2topk_nbs | tensör | (1,) | şamandıra32 | |
molekül_kimliği | tensör | sicim | ||
çift_maske | tensör | (60, 60) | şamandıra32 | |
çiftler | tensör | (60, 60, 12) | şamandıra32 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}