- Descriptif :
L'ensemble de données sur la cardiotoxicité des médicaments [1-2] est une tâche de classification des molécules pour détecter la cardiotoxicité causée par la liaison à la cible hERG, une protéine associée au rythme cardiaque. Les données couvrent plus de 9 000 molécules ayant une activité hERG.
Les données sont divisées en quatre divisions : train, test-iid, test-ood1, test-ood2.
Chaque molécule de l'ensemble de données comporte des annotations graphiques 2D conçues pour faciliter la modélisation du réseau neuronal graphique. Les nœuds sont les atomes de la molécule et les arêtes sont les liaisons. Chaque atome est représenté sous la forme d'un vecteur codant des informations atomiques de base telles que le type d'atome. Une logique similaire s'applique aux obligations.
Nous incluons la distance des empreintes digitales de Tanimoto (aux données d'entraînement) pour chaque molécule dans les ensembles de test afin de faciliter la recherche sur le changement de distribution dans le domaine des graphes.
Pour chaque exemple, les caractéristiques comprennent : des atomes : un tenseur 2D avec une forme (60, 27) stockant des caractéristiques de nœud. Les molécules de moins de 60 atomes sont remplies de zéros. Chaque atome a 27 caractéristiques atomiques. paires : un tenseur 3D avec une forme (60, 60, 12) stockant des caractéristiques de bord. Chaque arête a 12 fonctions d'arête. atom_mask : un tenseur 1D de forme (60, ) stockant les masques de nœuds. 1 indique que l'atome correspondant est réel, sinon un atome rembourré. pair_mask : un tenseur 2D avec une forme (60, 60) stockant des masques de bord. 1 indique que l'arête correspondante est réelle, sinon une arête rembourrée. active : un vecteur one-hot indiquant si la molécule est toxique ou non. [0, 1] indique qu'il est toxique, sinon [1, 0] non toxique.
Références
[1] : VB Siramshetty et al. Évaluation critique des méthodes d'intelligence artificielle pour la prédiction de l'inhibition du canal hERG à l'ère du Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2] : K. Han et al. Réseaux de neurones graphiques fiables pour la découverte de médicaments sous changement de distribution. Atelier NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951
Page d' accueil : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Code source :
tfds.graphs.cardiotox.Cardiotox
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
1.66 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6 523 |
'validation' | 1 631 |
- Structure des fonctionnalités :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
actif | Tenseur | (2,) | int64 | |
atom_mask | Tenseur | (60,) | float32 | |
atomes | Tenseur | (60, 27) | float32 | |
dist2topk_nbs | Tenseur | (1,) | float32 | |
molécule_id | Tenseur | chaîne de caractères | ||
paire_masque | Tenseur | (60, 60) | float32 | |
paires | Tenseur | (60, 60, 12) | float32 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}