- תיאור :
מערך נתונים של Drug Cardiotoxicity [1-2] הוא משימת סיווג מולקולות לזיהוי קרדיו-רעילות הנגרמת על ידי קישור ל-hERG target, חלבון הקשור לקצב פעימות הלב. הנתונים מכסים מעל 9000 מולקולות עם פעילות hERG.
הנתונים מחולקים לארבעה פיצולים: רכבת, test-iid, test-ood1, test-ood2.
לכל מולקולה במערך הנתונים יש הערות גרפים דו-ממדיות שנועדו להקל על יצירת מודלים של רשתות עצביות. צמתים הם האטומים של המולקולה והקצוות הם הקשרים. כל אטום מיוצג כווקטור המקודד מידע אטום בסיסי כגון סוג אטום. היגיון דומה חל על איגרות חוב.
אנו כוללים מרחק טביעת אצבע של Tanimoto (לנתוני אימון) עבור כל מולקולה בערכות הבדיקה כדי להקל על מחקר על שינוי התפלגות בתחום הגרף.
עבור כל דוגמה, התכונות כוללות: אטומים: טנזור דו-ממדי עם צורה (60, 27) המאחסן תכונות של צומת. מולקולות עם פחות מ-60 אטומים מרופדות באפסים. לכל אטום 27 תכונות אטומים. זוגות: טנזור תלת מימדי עם צורה (60, 60, 12) המאחסן תכונות קצה. לכל קצה יש 12 תכונות קצה. atom_mask: טנזור 1D עם צורה (60, ) המאחסנת מסכות צמתים. 1 מציין שהאטום המתאים הוא אמיתי, אחרת מרופד. pair_mask: טנזור דו-ממדי עם צורה (60, 60) המאחסנת מסכות קצה. 1 מציין שהקצה המתאים הוא אמיתי, אחרת מרופד. פעיל: וקטור חם אחד המציין אם המולקולה רעילה או לא. [0, 1] מציין שהוא רעיל, אחרת [1, 0] אינו רעיל.
הפניות
[1]: VB Siramshetty et al. הערכה קריטית של שיטות בינה מלאכותית לחיזוי עיכוב ערוץ hERG בעידן הביג דאטה. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. רשתות עצביות גרפיות אמינות לגילוי תרופות בשינוי תפוצה. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951
דף הבית : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
קוד מקור :
tfds.graphs.cardiotox.Cardiotox
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
1.66 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1,631 |
- מבנה תכונה :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
פָּעִיל | מוֹתֵחַ | (2,) | int64 | |
atom_mask | מוֹתֵחַ | (60,) | לצוף32 | |
אטומים | מוֹתֵחַ | (60, 27) | לצוף32 | |
dist2topk_nbs | מוֹתֵחַ | (1,) | לצוף32 | |
molecule_id | מוֹתֵחַ | חוּט | ||
pair_mask | מוֹתֵחַ | (60, 60) | לצוף32 | |
זוגות | מוֹתֵחַ | (60, 60, 12) | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}