カーディオトックス

  • 説明:

薬物心毒性データセット [1-2] は、心拍リズムに関連するタンパク質である hERG ターゲットの結合によって引き起こされる心毒性を検出するための分子分類タスクです。データは、hERG 活性を持つ 9000 を超える分子をカバーしています。

  1. データは、train、test-iid、test-ood1、test-ood2 の 4 つの分割に分割されます。

  2. データセット内の各分子には、グラフ ニューラル ネットワーク モデリングを容易にするように設計された 2D グラフ アノテーションがあります。ノードは分子の原子で、エッジは結合です。各アトムは、アトム タイプなどの基本的なアトム情報をエンコードするベクトルとして表されます。同様の論理が債券にも当てはまります。

  3. グラフ ドメインの分布シフトの研究を容易にするために、テスト セット内の各分子の (トレーニング データへの) Tanimoto 指紋距離を含めます。

各例の機能には以下が含まれます: アトム: ノード機能を格納する形状 (60, 27) を持つ 2D テンソル。原子数が 60 未満の分子はゼロで埋められます。各原子には 27 個の原子機能があります。ペア: エッジ機能を格納する形状 (60、60、12) を持つ 3D テンソル。各エッジには 12 個のエッジ フィーチャがあります。 atom_mask: ノード マスクを格納する形状 (60, ) を持つ 1D テンソル。 1 は、対応するアトムが実数であることを示します。 pair_mask: エッジ マスクを格納する形状 (60, 60) を持つ 2D テンソル。 1 は、対応するエッジが実数であることを示します。アクティブ: 分子が有毒かどうかを示すワンホット ベクトル。 [0, 1] は有毒であることを示し、それ以外の場合は [1, 0] 無毒であることを示します。

参考文献

[1]: VB Siramshetty ら。ビッグデータ時代における hERG チャネル阻害の予測のための人工知能法の重要な評価。 JCIM、2020年。 https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K.ハンら。分布シフト下での創薬のための信頼できるグラフ ニューラル ネットワーク。 NeurIPS DistShift ワークショップ 2021. https://arxiv.org/abs/2111.12951

スプリット
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • 機能構造:
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
アクティブテンソル(2) int64
atom_maskテンソル(60) float32
原子テンソル(60, 27) float32
dist2topk_nbsテンソル(1) float32
分子IDテンソルストリング
ペアマスクテンソル(60、60) float32
ペアテンソル(60、60、12) float32
  • 引用
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}