- বর্ণনা :
'ogbg-molpcba' হল PubChem BioAssay থেকে নমুনাকৃত একটি আণবিক ডেটাসেট। এটি ওপেন গ্রাফ বেঞ্চমার্ক (OGB) থেকে একটি গ্রাফ পূর্বাভাস ডেটাসেট।
এই ডেটাসেটটি পরীক্ষামূলক, এবং API ভবিষ্যতের রিলিজে পরিবর্তন সাপেক্ষে।
ডেটাসেটের নীচের বিবরণটি OGB কাগজ থেকে অভিযোজিত হয়েছে:
ছক পূরণ করা
সমস্ত অণু RDKit ([1]) ব্যবহার করে প্রাক-প্রক্রিয়াজাত করা হয়।
- প্রতিটি গ্রাফ একটি অণুর প্রতিনিধিত্ব করে, যেখানে নোডগুলি পরমাণু এবং প্রান্তগুলি রাসায়নিক বন্ধন।
- ইনপুট নোডের বৈশিষ্ট্যগুলি হল 9-মাত্রিক, পারমাণবিক সংখ্যা এবং কাইরালিটি, সেইসাথে অন্যান্য অতিরিক্ত পরমাণুর বৈশিষ্ট্য যেমন আনুষ্ঠানিক চার্জ এবং পরমাণুটি রিংয়ে আছে কিনা।
- ইনপুট প্রান্ত বৈশিষ্ট্য 3-মাত্রিক, বন্ডের ধরন, বন্ড স্টেরিওকেমিস্ট্রি, সেইসাথে একটি অতিরিক্ত বন্ড বৈশিষ্ট্য নির্দেশ করে যে বন্ডটি সংযুক্ত কিনা।
সমস্ত বৈশিষ্ট্যের সঠিক বিবরণ https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py এ উপলব্ধ
ভবিষ্যদ্বাণী
কাজটি হল 128টি বিভিন্ন জৈবিক ক্রিয়াকলাপ (নিষ্ক্রিয়/সক্রিয়) ভবিষ্যদ্বাণী করা। এই লক্ষ্যগুলি সম্পর্কে আরও বর্ণনার জন্য [2] এবং [3] দেখুন। সমস্ত লক্ষ্য প্রতিটি অণুর জন্য প্রযোজ্য নয়: অনুপস্থিত লক্ষ্যগুলি NaN দ্বারা নির্দেশিত হয়।
তথ্যসূত্র
[১]: গ্রেগ ল্যান্ডরুম, এবং অন্যান্য। 'RDKit: ওপেন সোর্স কেমিনফরমেটিক্স'। URL: https://github.com/rdkit/rdkit
[২]: ভরথ রামসুন্দর, স্টিভেন কার্নেস, প্যাট্রিক রিলে, ডেল ওয়েবস্টার, ডেভিড কোনারডিং এবং বিজয় পান্ডে। 'ম্যাসিভলি মাল্টিটাস্ক নেটওয়ার্ক ফর ড্রাগ ডিসকভারি'। URL: https://arxiv.org/pdf/1502.02072.pdf
[৩]: ঝেনকিন উ, ভরথ রামসুন্দর, ইভান এন ফেইনবার্গ, জোসেফ গোমস, ক্যালেব জেনেসি, অনিশ এস পাপ্পু, কার্ল লেসউইং এবং বিজয় পান্ডে। মলিকিউলনেট: আণবিক মেশিন লার্নিংয়ের জন্য একটি মানদণ্ড। রাসায়নিক বিজ্ঞান, 9(2):513-530, 2018।
সোর্স কোড :
tfds.datasets.ogbg_molpcba.Builder
সংস্করণ :
-
0.1.0
: পরীক্ষামূলক API-এর প্রাথমিক প্রকাশ। -
0.1.1
: প্রতিটি গ্রাফে প্রান্তের সংখ্যা স্পষ্টভাবে প্রকাশ করে। -
0.1.2
: GraphVisualizer-এর জন্য মেটাডেটা ক্ষেত্র যোগ করুন। -
0.1.3
(ডিফল্ট): পৃথক কাজের নামের জন্য মেটাডেটা ক্ষেত্র যোগ করুন।
-
ডাউনলোড সাইজ :
37.70 MiB
ডেটাসেটের আকার :
822.53 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৪৩,৭৯৩ |
'train' | 350,343 |
'validation' | ৪৩,৭৯৩ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
edge_feat | টেনসর | (কোনটিই নয়, 3) | float32 | |
edge_index | টেনসর | (কোনটিই নয়, 2) | int64 | |
লেবেল | টেনসর | (128,) | float32 | |
node_feat | টেনসর | (কোনটি নয়, 9) | float32 | |
প্রান্ত_সংখ্যা | টেনসর | (কোনটিই নয়,) | int64 | |
সংখ্যা_নোড | টেনসর | (কোনটিই নয়,) | int64 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}