cardiotossico

  • Descrizione :

Il set di dati sulla cardiotossicità dei farmaci [1-2] è un compito di classificazione delle molecole per rilevare la cardiotossicità causata dal legame del target hERG, una proteina associata al ritmo del battito cardiaco. I dati coprono oltre 9000 molecole con attività hERG.

  1. I dati sono suddivisi in quattro parti: train, test-iid, test-ood1, test-ood2.

  2. Ogni molecola nel set di dati ha annotazioni grafiche 2D progettate per facilitare la modellazione della rete neurale grafica. I nodi sono gli atomi della molecola e i bordi sono i legami. Ogni atomo è rappresentato come un vettore che codifica le informazioni di base sull'atomo come il tipo di atomo. Una logica simile si applica alle obbligazioni.

  3. Includiamo la distanza dell'impronta digitale di Tanimoto (rispetto ai dati di addestramento) per ciascuna molecola nei set di test per facilitare la ricerca sullo spostamento distributivo nel dominio del grafico.

Per ogni esempio, le caratteristiche includono: atomi: un tensore 2D con forma (60, 27) che memorizza le caratteristiche del nodo. Le molecole con meno di 60 atomi sono riempite di zeri. Ogni atomo ha 27 caratteristiche atomiche. coppie: un tensore 3D con forma (60, 60, 12) che memorizza le caratteristiche del bordo. Ogni bordo ha 12 caratteristiche del bordo. atom_mask: un tensore 1D con forma (60, ) che memorizza le maschere dei nodi. 1 indica che l'atomo corrispondente è reale, altrimenti imbottito. pair_mask: un tensore 2D con forma (60, 60) che memorizza le maschere dei bordi. 1 indica che il bordo corrispondente è reale, altrimenti imbottito. attivo: un vettore one-hot che indica se la molecola è tossica o meno. [0, 1] indica che è tossico, altrimenti [1, 0] non tossico.

Riferimenti

[1]: VB Siramshetty et al. Valutazione critica dei metodi di intelligenza artificiale per la previsione dell'inibizione del canale hERG nell'era dei Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K.Han et al. Reti neurali a grafo affidabili per la scoperta di farmaci nell'ambito del cambiamento distributivo. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951

Diviso Esempi
'test' 839
'test2' 177
'train' 6.523
'validation' 1.631
  • Struttura delle caratteristiche :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
attivo Tensore (2,) int64
maschera_atomica Tensore (60,) galleggiante32
atomi Tensore (60, 27) galleggiante32
dist2topk_nbs Tensore (1,) galleggiante32
molecola_id Tensore corda
coppia_maschera Tensore (60, 60) galleggiante32
coppie Tensore (60, 60, 12) galleggiante32
  • Citazione :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}