- 説明:
「ogbg-molpcba」は、PubChem BioAssay からサンプリングされた分子データセットです。これは、Open Graph Benchmark (OGB) からのグラフ予測データセットです。
このデータセットは実験的なものであり、API は将来のリリースで変更される可能性があります。
以下のデータセットの説明は、OGB の論文から改作されています。
入力フォーマット
すべての分子は、RDKit を使用して前処理されます ([1])。
- 各グラフは分子を表し、ノードは原子、エッジは化学結合です。
- 入力ノードの機能は 9 次元であり、原子番号とキラリティーのほか、形式電荷や原子が環内にあるかどうかなどのその他の追加の原子機能が含まれます。
- 入力エッジ フィーチャは 3 次元であり、結合タイプ、結合立体化学、および結合が共役かどうかを示す追加の結合フィーチャが含まれます。
すべての機能の正確な説明は、 https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.pyで入手できます。
予測
タスクは、128 の異なる生物学的活動 (非アクティブ/アクティブ) を予測することです。これらのターゲットの詳細については、[2] および [3] を参照してください。すべてのターゲットが各分子に適用されるわけではありません。欠落しているターゲットは NaN で示されます。
参考文献
[1]: グレッグ・ランドラム他「RDKit: オープンソースの化学情報学」。 URL: https://github.com/rdkit/rdkit
[2]: Bharath Ramsundar、Steven Kearnes、Patrick Riley、Dale Webster、David Konerding、Vijay Pande。 「創薬のための大規模なマルチタスク ネットワーク」。 URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu、Bharath Ramsundar、Evan N Feinberg、Joseph Gomes、Caleb Geniesse、Aneesh S. Pappu、Karl Leswing、および Vijay Pande。 MoleculeNet: 分子機械学習のベンチマーク。化学科学、9(2):513-530、2018。
ソース コード:
tfds.datasets.ogbg_molpcba.Builder
バージョン:
-
0.1.0
: 実験的 API の初期リリース。 -
0.1.1
: 各グラフのエッジ数を明示的に公開します。 -
0.1.2
: GraphVisualizer のメタデータ フィールドを追加します。 -
0.1.3
(デフォルト): 個々のタスクの名前のメタデータ フィールドを追加します。
-
ダウンロードサイズ:
37.70 MiB
データセットサイズ:
822.53 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 43,793 |
'train' | 350,343 |
'validation' | 43,793 |
- 機能構造:
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
edge_feat | テンソル | (なし、3) | float32 | |
edge_index | テンソル | (なし、2) | int64 | |
ラベル | テンソル | (128) | float32 | |
node_feat | テンソル | (なし、9) | float32 | |
num_edges | テンソル | (なし、) | int64 | |
num_nodes | テンソル | (なし、) | int64 |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
- 引用:
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}