- Açıklama :
'ogbg-molpcba', PubChem BioAssay'den örneklenen moleküler bir veri kümesidir. Open Graph Benchmark'tan (OGB) alınan bir grafik tahmin veri kümesidir.
Bu veri kümesi deneyseldir ve API, gelecekteki sürümlerde değişikliğe tabidir.
Veri kümesinin aşağıdaki açıklaması OGB belgesinden uyarlanmıştır:
Giriş Formatı
Tüm moleküller, RDKit ([1]) kullanılarak önceden işlenir.
- Her grafik, düğümlerin atom olduğu ve kenarların kimyasal bağlar olduğu bir molekülü temsil eder.
- Girdi düğümü özellikleri 9 boyutludur, atom numarası ve kiralitenin yanı sıra resmi yük ve atomun halkada olup olmadığı gibi diğer ek atom özelliklerini içerir.
- Giriş kenarı özellikleri 3 boyutludur, bağ tipini, bağ stereokimyasını ve ayrıca bağın konjuge olup olmadığını gösteren ek bir bağ özelliğini içerir.
Tüm özelliklerin tam açıklaması https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py adresinde mevcuttur.
Tahmin
Görev, 128 farklı biyolojik aktiviteyi (aktif/aktif) tahmin etmektir. Bu hedefler hakkında daha fazla açıklama için [2] ve [3]'e bakın. Tüm hedefler her molekül için geçerli değildir: eksik hedefler NaN'ler ile gösterilir.
Referanslar
[1]: Greg Landrum, et al. "RDKit: Açık kaynaklı keminformatik". URL: https://github.com/rdkit/rdkit
[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding ve Vijay Pande. "İlaç Keşfi için Devasa Çoklu Görev Ağları". URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing ve Vijay Pande. MoleculeNet: moleküler makine öğrenimi için bir ölçüt. Kimya Bilimi, 9(2):513-530, 2018.
Ana sayfa : https://ogb.stanford.edu/docs/graphprop
Kaynak kodu :
tfds.datasets.ogbg_molpcba.Builder
sürümler :
-
0.1.0
: Deneysel API'nin ilk sürümü. -
0.1.1
: Her grafikteki kenar sayısını açıkça gösterir. -
0.1.2
: GraphVisualizer için meta veri alanı ekleyin. -
0.1.3
(varsayılan): Bireysel görevlerin adları için meta veri alanı ekleyin.
-
İndirme boyutu :
37.70 MiB
Veri kümesi boyutu :
822.53 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 43.793 |
'train' | 350.343 |
'validation' | 43.793 |
- Özellik yapısı :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Edge_feat | tensör | (Yok, 3) | şamandıra32 | |
kenar_index | tensör | (Yok, 2) | int64 | |
etiketler | tensör | (128,) | şamandıra32 | |
node_feat | tensör | (Yok, 9) | şamandıra32 | |
sayı_kenarları | tensör | (Hiçbiri,) | int64 | |
düğüm_node sayısı | tensör | (Hiçbiri,) | int64 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}