- 설명 :
'ogbg-molpcba'는 PubChem BioAssay에서 샘플링한 분자 데이터 세트입니다. OGB(Open Graph Benchmark)의 그래프 예측 데이터 세트입니다.
이 데이터 세트는 실험적이며 API는 향후 릴리스에서 변경될 수 있습니다.
데이터 세트에 대한 아래 설명은 OGB 논문에서 채택되었습니다.
입력 형식
모든 분자는 RDKit([1])을 사용하여 사전 처리됩니다.
- 각 그래프는 노드가 원자이고 가장자리가 화학 결합인 분자를 나타냅니다.
- 입력 노드 기능은 원자 번호와 키랄성을 포함하는 9차원이며 형식 전하 및 원자가 고리에 있는지 여부와 같은 기타 추가 원자 기능을 포함합니다.
- 입력 에지 피처는 결합 유형, 결합 입체화학 및 결합이 공액인지 여부를 나타내는 추가 결합 피처를 포함하는 3차원입니다.
모든 기능에 대한 정확한 설명은 https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py 에서 확인할 수 있습니다.
예측
이 작업은 128개의 서로 다른 생물학적 활동(비활성/활성)을 예측하는 것입니다. 이러한 대상에 대한 자세한 설명은 [2] 및 [3]을 참조하십시오. 모든 대상이 각 분자에 적용되는 것은 아닙니다. 누락된 대상은 NaN으로 표시됩니다.
참조
[1]: Greg Landrum, 외. 'RDKit: 오픈 소스 화학포매틱스'. URL: https://github.com/rdkit/rdkit
[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding 및 Vijay Pande. '신약 발견을 위한 대규모 멀티태스킹 네트워크'. URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing 및 Vijay Pande. MoleculeNet: 분자 기계 학습을 위한 벤치마크입니다. 화학과학, 9(2):513-530, 2018.
버전 :
-
0.1.0
: 실험적 API의 최초 릴리스. -
0.1.1
: 각 그래프의 간선 수를 명시적으로 노출합니다. -
0.1.2
: GraphVisualizer에 대한 메타데이터 필드를 추가합니다. -
0.1.3
(기본값): 개별 작업 이름에 대한 메타데이터 필드를 추가합니다.
-
다운로드 크기 :
37.70 MiB
데이터 세트 크기 :
822.53 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 43,793 |
'train' | 350,343 |
'validation' | 43,793 |
- 기능 구조 :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
edge_feat | 텐서 | (없음, 3) | float32 | |
edge_index | 텐서 | (없음, 2) | int64 | |
레이블 | 텐서 | (128,) | float32 | |
node_feat | 텐서 | (없음, 9) | float32 | |
num_edges | 텐서 | (없음,) | int64 | |
num_nodes | 텐서 | (없음,) | int64 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ):
- 예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}