cardiotossico

Descrizione :

Il set di dati sulla cardiotossicità dei farmaci [1-2] è un compito di classificazione delle molecole per rilevare la cardiotossicità causata dal legame del target hERG, una proteina associata al ritmo del battito cardiaco. I dati coprono oltre 9000 molecole con attività hERG.

I dati sono suddivisi in quattro parti: train, test-iid, test-ood1, test-ood2.
Ogni molecola nel set di dati ha annotazioni grafiche 2D progettate per facilitare la modellazione della rete neurale grafica. I nodi sono gli atomi della molecola e i bordi sono i legami. Ogni atomo è rappresentato come un vettore che codifica le informazioni di base sull'atomo come il tipo di atomo. Una logica simile si applica alle obbligazioni.
Includiamo la distanza dell'impronta digitale di Tanimoto (rispetto ai dati di addestramento) per ciascuna molecola nei set di test per facilitare la ricerca sullo spostamento distributivo nel dominio del grafico.

Per ogni esempio, le caratteristiche includono: atomi: un tensore 2D con forma (60, 27) che memorizza le caratteristiche del nodo. Le molecole con meno di 60 atomi sono riempite di zeri. Ogni atomo ha 27 caratteristiche atomiche. coppie: un tensore 3D con forma (60, 60, 12) che memorizza le caratteristiche del bordo. Ogni bordo ha 12 caratteristiche del bordo. atom_mask: un tensore 1D con forma (60, ) che memorizza le maschere dei nodi. 1 indica che l'atomo corrispondente è reale, altrimenti imbottito. pair_mask: un tensore 2D con forma (60, 60) che memorizza le maschere dei bordi. 1 indica che il bordo corrispondente è reale, altrimenti imbottito. attivo: un vettore one-hot che indica se la molecola è tossica o meno. [0, 1] indica che è tossico, altrimenti [1, 0] non tossico.

Riferimenti

[1]: VB Siramshetty et al. Valutazione critica dei metodi di intelligenza artificiale per la previsione dell'inibizione del canale hERG nell'era dei Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K.Han et al. Reti neurali a grafo affidabili per la scoperta di farmaci nell'ambito del cambiamento distributivo. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951

Home page : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Codice sorgente : tfds.graphs.cardiotox.Cardiotox
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Dimensioni del download : Unknown size
Dimensione del set di dati : 1.66 GiB
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'test'`	839
`'test2'`	177
`'train'`	6.523
`'validation'`	1.631

Struttura delle caratteristiche :

FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
attivo	Tensore	(2,)	int64
maschera_atomica	Tensore	(60,)	galleggiante32
atomi	Tensore	(60, 27)	galleggiante32
dist2topk_nbs	Tensore	(1,)	galleggiante32
molecola_id	Tensore		corda
coppia_maschera	Tensore	(60, 60)	galleggiante32
coppie	Tensore	(60, 60, 12)	galleggiante32

Chiavi supervisionate (Vedi as_supervised doc ): None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}

cardiotossico Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Riferimenti

cardiotossico