- 설명 :
Drug Cardiotoxicity dataset[1-2]는 심장 박동 리듬과 관련된 단백질인 hERG 표적을 결합하여 발생하는 심장 독성을 검출하기 위한 분자 분류 작업입니다. 데이터는 hERG 활성이 있는 9000개 이상의 분자를 다룹니다.
데이터는 train, test-iid, test-ood1, test-ood2의 4개 분할로 나뉩니다.
데이터 세트의 각 분자에는 그래프 신경망 모델링을 용이하게 하도록 설계된 2D 그래프 주석이 있습니다. 노드는 분자의 원자이고 가장자리는 결합입니다. 각 원자는 원자 유형과 같은 기본 원자 정보를 인코딩하는 벡터로 표시됩니다. 비슷한 논리가 채권에도 적용됩니다.
그래프 도메인의 분포 이동에 대한 연구를 용이하게 하기 위해 테스트 세트의 각 분자에 대한 Tanimoto 지문 거리(훈련 데이터까지)를 포함합니다.
각 예의 기능에는 다음이 포함됩니다. 원자: 노드 기능을 저장하는 모양이 (60, 27)인 2D 텐서. 60개 미만의 원자를 가진 분자는 0으로 채워집니다. 각 원자에는 27개의 원자 기능이 있습니다. 쌍: 에지 피쳐를 저장하는 모양(60, 60, 12)의 3D 텐서. 각 모서리에는 12개의 모서리 기능이 있습니다. atom_mask: 노드 마스크를 저장하는 모양이 (60, )인 1D 텐서. 1은 해당 원자가 실제임을 나타내고, 그렇지 않으면 패딩된 원자임을 나타냅니다. pair_mask: 에지 마스크를 저장하는 모양이 (60, 60)인 2D 텐서. 1은 해당 가장자리가 실제이고, 그렇지 않으면 패딩된 가장자리임을 나타냅니다. 활성: 분자가 독성이 있는지 여부를 나타내는 원-핫 벡터입니다. [0, 1]은 독성이 있음을 나타내고 그렇지 않으면 [1, 0]은 독성이 없음을 나타냅니다.
참조
[1]: VB Siramshetty 외. 빅데이터 시대 hERG 채널 억제 예측을 위한 인공지능 기법의 비판적 평가. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. 분포 변화 하에서 약물 발견을 위한 신뢰할 수 있는 그래프 신경망. NeurIPS DistShift 워크샵 2021. https://arxiv.org/abs/2111.12951
홈페이지 : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
소스 코드 :
tfds.graphs.cardiotox.Cardiotox
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
Unknown size
데이터세트 크기 :
1.66 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1,631 |
- 기능 구조 :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
활동적인 | 텐서 | (2,) | int64 | |
atom_mask | 텐서 | (60,) | float32 | |
원자 | 텐서 | (60, 27) | float32 | |
dist2topk_nbs | 텐서 | (1,) | float32 | |
molecule_id | 텐서 | 끈 | ||
pair_mask | 텐서 | (60, 60) | float32 | |
한 쌍 | 텐서 | (60, 60, 12) | float32 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}