- توضیحات :
'ogbg-molpcba' یک مجموعه داده مولکولی است که از PubChem BioAssay نمونه برداری شده است. این یک مجموعه داده پیشبینی نمودار از معیار نمودار باز (OGB) است.
این مجموعه داده آزمایشی است و API ممکن است در نسخههای بعدی تغییر کند.
شرح زیر مجموعه داده از مقاله OGB اقتباس شده است:
فرمت ورودی
تمام مولکول ها با استفاده از RDKit ([1]) از پیش پردازش شده اند.
- هر نمودار یک مولکول را نشان می دهد که گره ها اتم هستند و لبه ها پیوندهای شیمیایی هستند.
- ویژگیهای گره ورودی 9 بعدی هستند، شامل عدد اتمی و کایرالیته، و همچنین سایر ویژگیهای اتم اضافی مانند شارژ رسمی و اینکه آیا اتم در حلقه است یا خیر.
- ویژگیهای لبه ورودی سه بعدی هستند، شامل نوع پیوند، استریوشیمی پیوند، و همچنین یک ویژگی پیوند اضافی که نشان میدهد آیا پیوند مزدوج است یا خیر.
شرح دقیق همه ویژگی ها در https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py موجود است.
پیش بینی
وظیفه پیش بینی 128 فعالیت بیولوژیکی مختلف (غیرفعال/فعال) است. برای توضیحات بیشتر در مورد این اهداف به [2] و [3] مراجعه کنید. همه اهداف برای هر مولکول اعمال نمی شوند: اهداف گم شده با NaNs نشان داده می شوند.
منابع
[1]: گرگ لاندروم و همکاران. "RDKit: شیمیفورماتیک منبع باز". آدرس اینترنتی: https://github.com/rdkit/rdkit
[2]: بهارات رامسوندار، استیون کرنز، پاتریک رایلی، دیل وبستر، دیوید کونردینگ و ویجی پانده. "شبکه های چندوظیفه ای انبوه برای کشف مواد مخدر". آدرس: https://arxiv.org/pdf/1502.02072.pdf
[3]: ژنکین وو، بهارات رامسوندار، ایوان ان فینبرگ، جوزف گومز، کالب جنیس، آنیش اس پاپو، کارل لسوینگ، و ویجی پانده. MoleculeNet: معیاری برای یادگیری ماشین مولکولی. علوم شیمی، 9 (2): 513-530، 2018.
صفحه اصلی : https://ogb.stanford.edu/docs/graphprop
کد منبع :
tfds.datasets.ogbg_molpcba.Builder
نسخه ها :
-
0.1.0
: انتشار اولیه API آزمایشی. -
0.1.1
: تعداد یال ها را در هر نمودار به وضوح نشان می دهد. -
0.1.2
: فیلد ابرداده را برای GraphVisualizer اضافه کنید. -
0.1.3
(پیشفرض): فیلد ابرداده را برای نام تکالیف اضافه کنید.
-
حجم دانلود :
37.70 MiB
حجم مجموعه داده :
822.53 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 43793 |
'train' | 350,343 |
'validation' | 43793 |
- ساختار ویژگی :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
edge_feat | تانسور | (هیچ، 3) | float32 | |
edge_index | تانسور | (هیچ، 2) | int64 | |
برچسب ها | تانسور | (128،) | float32 | |
node_feat | تانسور | (هیچ، 9) | float32 | |
num_edges | تانسور | (هیچ یک،) | int64 | |
num_nodes | تانسور | (هیچ یک،) | int64 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}