- Descrizione :
Il set di dati sulla cardiotossicità dei farmaci [1-2] è un compito di classificazione delle molecole per rilevare la cardiotossicità causata dal legame del target hERG, una proteina associata al ritmo del battito cardiaco. I dati coprono oltre 9000 molecole con attività hERG.
I dati sono suddivisi in quattro parti: train, test-iid, test-ood1, test-ood2.
Ogni molecola nel set di dati ha annotazioni grafiche 2D progettate per facilitare la modellazione della rete neurale grafica. I nodi sono gli atomi della molecola e i bordi sono i legami. Ogni atomo è rappresentato come un vettore che codifica le informazioni di base sull'atomo come il tipo di atomo. Una logica simile si applica alle obbligazioni.
Includiamo la distanza dell'impronta digitale di Tanimoto (rispetto ai dati di addestramento) per ciascuna molecola nei set di test per facilitare la ricerca sullo spostamento distributivo nel dominio del grafico.
Per ogni esempio, le caratteristiche includono: atomi: un tensore 2D con forma (60, 27) che memorizza le caratteristiche del nodo. Le molecole con meno di 60 atomi sono riempite di zeri. Ogni atomo ha 27 caratteristiche atomiche. coppie: un tensore 3D con forma (60, 60, 12) che memorizza le caratteristiche del bordo. Ogni bordo ha 12 caratteristiche del bordo. atom_mask: un tensore 1D con forma (60, ) che memorizza le maschere dei nodi. 1 indica che l'atomo corrispondente è reale, altrimenti imbottito. pair_mask: un tensore 2D con forma (60, 60) che memorizza le maschere dei bordi. 1 indica che il bordo corrispondente è reale, altrimenti imbottito. attivo: un vettore one-hot che indica se la molecola è tossica o meno. [0, 1] indica che è tossico, altrimenti [1, 0] non tossico.
Riferimenti
[1]: VB Siramshetty et al. Valutazione critica dei metodi di intelligenza artificiale per la previsione dell'inibizione del canale hERG nell'era dei Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K.Han et al. Reti neurali a grafo affidabili per la scoperta di farmaci nell'ambito del cambiamento distributivo. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951
Home page : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Codice sorgente :
tfds.graphs.cardiotox.Cardiotox
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati :
1.66 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6.523 |
'validation' | 1.631 |
- Struttura delle caratteristiche :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
attivo | Tensore | (2,) | int64 | |
maschera_atomica | Tensore | (60,) | galleggiante32 | |
atomi | Tensore | (60, 27) | galleggiante32 | |
dist2topk_nbs | Tensore | (1,) | galleggiante32 | |
molecola_id | Tensore | corda | ||
coppia_maschera | Tensore | (60, 60) | galleggiante32 | |
coppie | Tensore | (60, 60, 12) | galleggiante32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}