심장독

  • 설명 :

Drug Cardiotoxicity dataset[1-2]는 심장 박동 리듬과 관련된 단백질인 hERG 표적을 결합하여 발생하는 심장 독성을 검출하기 위한 분자 분류 작업입니다. 데이터는 hERG 활성이 있는 9000개 이상의 분자를 다룹니다.

  1. 데이터는 train, test-iid, test-ood1, test-ood2의 4개 분할로 나뉩니다.

  2. 데이터 세트의 각 분자에는 그래프 신경망 모델링을 용이하게 하도록 설계된 2D 그래프 주석이 있습니다. 노드는 분자의 원자이고 가장자리는 결합입니다. 각 원자는 원자 유형과 같은 기본 원자 정보를 인코딩하는 벡터로 표시됩니다. 비슷한 논리가 채권에도 적용됩니다.

  3. 그래프 도메인의 분포 이동에 대한 연구를 용이하게 하기 위해 테스트 세트의 각 분자에 대한 Tanimoto 지문 거리(훈련 데이터까지)를 포함합니다.

각 예의 기능에는 다음이 포함됩니다. 원자: 노드 기능을 저장하는 모양이 (60, 27)인 2D 텐서. 60개 미만의 원자를 가진 분자는 0으로 채워집니다. 각 원자에는 27개의 원자 기능이 있습니다. 쌍: 에지 피쳐를 저장하는 모양(60, 60, 12)의 3D 텐서. 각 모서리에는 12개의 모서리 기능이 있습니다. atom_mask: 노드 마스크를 저장하는 모양이 (60, )인 1D 텐서. 1은 해당 원자가 실제임을 나타내고, 그렇지 않으면 패딩된 원자임을 나타냅니다. pair_mask: 에지 마스크를 저장하는 모양이 (60, 60)인 2D 텐서. 1은 해당 가장자리가 실제이고, 그렇지 않으면 패딩된 가장자리임을 나타냅니다. 활성: 분자가 독성이 있는지 여부를 나타내는 원-핫 벡터입니다. [0, 1]은 독성이 있음을 나타내고 그렇지 않으면 [1, 0]은 독성이 없음을 나타냅니다.

참조

[1]: VB Siramshetty 외. 빅데이터 시대 hERG 채널 억제 예측을 위한 인공지능 기법의 비판적 평가. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. 분포 변화 하에서 약물 발견을 위한 신뢰할 수 있는 그래프 신경망. NeurIPS DistShift 워크샵 2021. https://arxiv.org/abs/2111.12951

나뉘다
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • 기능 구조 :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
활동적인 텐서 (2,) int64
atom_mask 텐서 (60,) float32
원자 텐서 (60, 27) float32
dist2topk_nbs 텐서 (1,) float32
molecule_id 텐서
pair_mask 텐서 (60, 60) float32
한 쌍 텐서 (60, 60, 12) float32
  • 인용 :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}