ogbg_molpcba

  • Описание :

«ogbg-molpcba» — набор молекулярных данных, взятый из PubChem BioAssay. Это набор данных прогнозирования графика из Open Graph Benchmark (OGB).

Этот набор данных является экспериментальным, и API может быть изменен в будущих выпусках.

Приведенное ниже описание набора данных адаптировано из документа OGB:

Формат ввода

Все молекулы предварительно обработаны с помощью RDKit ([1]).

  • Каждый граф представляет собой молекулу, где узлы — атомы, а ребра — химические связи.
  • Характеристики входного узла являются 9-мерными, содержат атомный номер и хиральность, а также другие дополнительные характеристики атома, такие как формальный заряд и наличие атома в кольце.
  • Входные ребра являются трехмерными, содержат тип связи, стереохимию связи, а также дополнительный признак связи, указывающий, является ли связь сопряженной.

Точное описание всех функций доступно по адресу https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py .

Прогноз

Задача состоит в том, чтобы предсказать 128 различных видов биологической активности (неактивной/активной). См. [2] и [3] для получения дополнительной информации об этих целях. Не все мишени применимы к каждой молекуле: отсутствующие мишени обозначаются NaN.

Рекомендации

[1]: Грег Ландрам и др. «RDKit: хемоинформатика с открытым исходным кодом». URL: https://github.com/rdkit/rdkit

[2]: Бхарат Рамсундар, Стивен Кирнс, Патрик Райли, Дейл Вебстер, Дэвид Конердинг и Виджай Панде. «Массовые многозадачные сети для обнаружения лекарств». URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Женькин Ву, Бхарат Рамсундар, Эван Н. Файнберг, Джозеф Гомес, Калеб Дженис, Аниш С. Паппу, Карл Лесвинг и Виджай Панде. MoleculeNet: эталон молекулярного машинного обучения. Химическая наука, 9(2):513-530, 2018.

  • Домашняя страница : https://ogb.stanford.edu/docs/graphprop

  • Исходный код : tfds.datasets.ogbg_molpcba.Builder

  • Версии :

    • 0.1.0 : Первоначальный выпуск экспериментального API.
    • 0.1.1 : Явно показывает количество ребер в каждом графе.
    • 0.1.2 : Добавлено поле метаданных для GraphVisualizer.
    • 0.1.3 (по умолчанию): Добавить поле метаданных для имен отдельных задач.
  • Размер загрузки : 37.70 MiB

  • Размер набора данных : 822.53 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 43 793
'train' 350 343
'validation' 43 793
  • Структура функции :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
край_подвиг Тензор (Нет, 3) поплавок32
край_индекс Тензор (Нет, 2) int64
этикетки Тензор (128,) поплавок32
node_feat Тензор (Нет, 9) поплавок32
num_edges Тензор (Никто,) int64
число_узлов Тензор (Никто,) int64

Визуализация

  • Цитата :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}