- Описание :
«ogbg-molpcba» — набор молекулярных данных, взятый из PubChem BioAssay. Это набор данных прогнозирования графика из Open Graph Benchmark (OGB).
Этот набор данных является экспериментальным, и API может быть изменен в будущих выпусках.
Приведенное ниже описание набора данных адаптировано из документа OGB:
Формат ввода
Все молекулы предварительно обработаны с помощью RDKit ([1]).
- Каждый граф представляет собой молекулу, где узлы — атомы, а ребра — химические связи.
- Характеристики входного узла являются 9-мерными, содержат атомный номер и хиральность, а также другие дополнительные характеристики атома, такие как формальный заряд и наличие атома в кольце.
- Входные ребра являются трехмерными, содержат тип связи, стереохимию связи, а также дополнительный признак связи, указывающий, является ли связь сопряженной.
Точное описание всех функций доступно по адресу https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py .
Прогноз
Задача состоит в том, чтобы предсказать 128 различных видов биологической активности (неактивной/активной). См. [2] и [3] для получения дополнительной информации об этих целях. Не все мишени применимы к каждой молекуле: отсутствующие мишени обозначаются NaN.
Рекомендации
[1]: Грег Ландрам и др. «RDKit: хемоинформатика с открытым исходным кодом». URL: https://github.com/rdkit/rdkit
[2]: Бхарат Рамсундар, Стивен Кирнс, Патрик Райли, Дейл Вебстер, Дэвид Конердинг и Виджай Панде. «Массовые многозадачные сети для обнаружения лекарств». URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Женькин Ву, Бхарат Рамсундар, Эван Н. Файнберг, Джозеф Гомес, Калеб Дженис, Аниш С. Паппу, Карл Лесвинг и Виджай Панде. MoleculeNet: эталон молекулярного машинного обучения. Химическая наука, 9(2):513-530, 2018.
Домашняя страница : https://ogb.stanford.edu/docs/graphprop
Исходный код :
tfds.datasets.ogbg_molpcba.Builder
Версии :
-
0.1.0
: Первоначальный выпуск экспериментального API. -
0.1.1
: Явно показывает количество ребер в каждом графе. -
0.1.2
: Добавлено поле метаданных для GraphVisualizer. -
0.1.3
(по умолчанию): Добавить поле метаданных для имен отдельных задач.
-
Размер загрузки :
37.70 MiB
Размер набора данных :
822.53 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 43 793 |
'train' | 350 343 |
'validation' | 43 793 |
- Структура функции :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
край_подвиг | Тензор | (Нет, 3) | поплавок32 | |
край_индекс | Тензор | (Нет, 2) | int64 | |
этикетки | Тензор | (128,) | поплавок32 | |
node_feat | Тензор | (Нет, 9) | поплавок32 | |
num_edges | Тензор | (Никто,) | int64 | |
число_узлов | Тензор | (Никто,) | int64 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}