- คำอธิบาย :
'ogbg-molpcba' เป็นชุดข้อมูลระดับโมเลกุลที่สุ่มตัวอย่างจาก PubChem BioAssay เป็นชุดข้อมูลการทำนายกราฟจาก Open Graph Benchmark (OGB)
ชุดข้อมูลนี้เป็นชุดทดลอง และ API อาจมีการเปลี่ยนแปลงในรุ่นต่อๆ ไป
คำอธิบายด้านล่างของชุดข้อมูลดัดแปลงมาจากกระดาษ OGB:
รูปแบบการป้อนข้อมูล
โมเลกุลทั้งหมดได้รับการประมวลผลล่วงหน้าโดยใช้ RDKit ([1])
- แต่ละกราฟแสดงถึงโมเลกุล โดยที่โหนดคืออะตอม และขอบคือพันธะเคมี
- คุณลักษณะของโหนดอินพุตเป็นแบบ 9 มิติ ซึ่งมีเลขอะตอมและไครลิตี้ รวมถึงคุณลักษณะเพิ่มเติมของอะตอมอื่นๆ เช่น ประจุที่เป็นทางการ และอะตอมอยู่ในวงแหวนหรือไม่
- คุณสมบัติขอบอินพุตเป็นแบบ 3 มิติ ประกอบด้วยประเภทพันธะ สเตอรีโอเคมีของพันธะ รวมถึงคุณสมบัติพันธะเพิ่มเติมที่บ่งชี้ว่าพันธะถูกผันหรือไม่
คำอธิบายที่ชัดเจนของคุณสมบัติทั้งหมดมีอยู่ที่ https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py
การทำนาย
ภารกิจคือการทำนายกิจกรรมทางชีวภาพที่แตกต่างกัน 128 กิจกรรม (ไม่ใช้งาน/ใช้งานอยู่) ดู [2] และ [3] สำหรับคำอธิบายเพิ่มเติมเกี่ยวกับเป้าหมายเหล่านี้ ไม่ใช่เป้าหมายทั้งหมดที่ใช้กับแต่ละโมเลกุล: เป้าหมายที่ขาดหายไปจะถูกระบุด้วย NaN
อ้างอิง
[1]: เกร็ก แลนดรัม และคณะ 'RDKit: เคมีสารสนเทศแบบโอเพ่นซอร์ส' URL: https://github.com/rdkit/rdkit
[2]: ภาราธ แรมซุนดาร์, สตีเวน เคียร์นส์, แพทริก ไรลีย์, เดล เว็บสเตอร์, เดวิด โคเนอร์ดิง และวีเจย์ แพนเด 'เครือข่ายการทำงานหลายอย่างพร้อมกันเพื่อการค้นพบยา' URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing และ Vijay Pande MoleculeNet: เกณฑ์มาตรฐานสำหรับการเรียนรู้ของเครื่องระดับโมเลกุล วิทยาศาสตร์เคมี, 9(2):513-530, 2018.
หน้าแรก : https://ogb.stanford.edu/docs/graphprop
รหัสแหล่งที่มา :
tfds.datasets.ogbg_molpcba.Builder
รุ่น :
-
0.1.0
: การเปิดตัวครั้งแรกของ API ทดลอง -
0.1.1
: แสดงจำนวนขอบในแต่ละกราฟอย่างชัดเจน -
0.1.2
: เพิ่มฟิลด์ข้อมูลเมตาสำหรับ GraphVisualizer -
0.1.3
(ค่าเริ่มต้น): เพิ่มฟิลด์ข้อมูลเมตาสำหรับชื่อของแต่ละงาน
-
ขนาดการดาวน์โหลด :
37.70 MiB
ขนาดชุดข้อมูล :
822.53 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 43,793 |
'train' | 350,343 |
'validation' | 43,793 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
edge_feat | เทนเซอร์ | (ไม่มี 3) | ลอย32 | |
edge_index | เทนเซอร์ | (ไม่มี 2) | int64 | |
ป้ายกำกับ | เทนเซอร์ | (128,) | ลอย32 | |
node_feat | เทนเซอร์ | (ไม่มี 9) | ลอย32 | |
num_edges | เทนเซอร์ | (ไม่มี,) | int64 | |
num_nodes | เทนเซอร์ | (ไม่มี,) | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}