cardiotox

  • Descriptif :

L'ensemble de données sur la cardiotoxicité des médicaments [1-2] est une tâche de classification des molécules pour détecter la cardiotoxicité causée par la liaison à la cible hERG, une protéine associée au rythme cardiaque. Les données couvrent plus de 9 000 molécules ayant une activité hERG.

  1. Les données sont divisées en quatre divisions : train, test-iid, test-ood1, test-ood2.

  2. Chaque molécule de l'ensemble de données comporte des annotations graphiques 2D conçues pour faciliter la modélisation du réseau neuronal graphique. Les nœuds sont les atomes de la molécule et les arêtes sont les liaisons. Chaque atome est représenté sous la forme d'un vecteur codant des informations atomiques de base telles que le type d'atome. Une logique similaire s'applique aux obligations.

  3. Nous incluons la distance des empreintes digitales de Tanimoto (aux données d'entraînement) pour chaque molécule dans les ensembles de test afin de faciliter la recherche sur le changement de distribution dans le domaine des graphes.

Pour chaque exemple, les caractéristiques comprennent : des atomes : un tenseur 2D avec une forme (60, 27) stockant des caractéristiques de nœud. Les molécules de moins de 60 atomes sont remplies de zéros. Chaque atome a 27 caractéristiques atomiques. paires : un tenseur 3D avec une forme (60, 60, 12) stockant des caractéristiques de bord. Chaque arête a 12 fonctions d'arête. atom_mask : un tenseur 1D de forme (60, ) stockant les masques de nœuds. 1 indique que l'atome correspondant est réel, sinon un atome rembourré. pair_mask : un tenseur 2D avec une forme (60, 60) stockant des masques de bord. 1 indique que l'arête correspondante est réelle, sinon une arête rembourrée. active : un vecteur one-hot indiquant si la molécule est toxique ou non. [0, 1] indique qu'il est toxique, sinon [1, 0] non toxique.

Références

[1] : VB Siramshetty et al. Évaluation critique des méthodes d'intelligence artificielle pour la prédiction de l'inhibition du canal hERG à l'ère du Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2] : K. Han et al. Réseaux de neurones graphiques fiables pour la découverte de médicaments sous changement de distribution. Atelier NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Diviser Exemples
'test' 839
'test2' 177
'train' 6 523
'validation' 1 631
  • Structure des fonctionnalités :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
actif Tenseur (2,) int64
atom_mask Tenseur (60,) float32
atomes Tenseur (60, 27) float32
dist2topk_nbs Tenseur (1,) float32
molécule_id Tenseur chaîne de caractères
paire_masque Tenseur (60, 60) float32
paires Tenseur (60, 60, 12) float32
  • Citation :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}