cardiotox

  • תיאור :

מערך נתונים של Drug Cardiotoxicity [1-2] הוא משימת סיווג מולקולות לזיהוי קרדיו-רעילות הנגרמת על ידי קישור ל-hERG target, חלבון הקשור לקצב פעימות הלב. הנתונים מכסים מעל 9000 מולקולות עם פעילות hERG.

  1. הנתונים מחולקים לארבעה פיצולים: רכבת, test-iid, test-ood1, test-ood2.

  2. לכל מולקולה במערך הנתונים יש הערות גרפים דו-ממדיות שנועדו להקל על יצירת מודלים של רשתות עצביות. צמתים הם האטומים של המולקולה והקצוות הם הקשרים. כל אטום מיוצג כווקטור המקודד מידע אטום בסיסי כגון סוג אטום. היגיון דומה חל על איגרות חוב.

  3. אנו כוללים מרחק טביעת אצבע של Tanimoto (לנתוני אימון) עבור כל מולקולה בערכות הבדיקה כדי להקל על מחקר על שינוי התפלגות בתחום הגרף.

עבור כל דוגמה, התכונות כוללות: אטומים: טנזור דו-ממדי עם צורה (60, 27) המאחסן תכונות של צומת. מולקולות עם פחות מ-60 אטומים מרופדות באפסים. לכל אטום 27 תכונות אטומים. זוגות: טנזור תלת מימדי עם צורה (60, 60, 12) המאחסן תכונות קצה. לכל קצה יש 12 תכונות קצה. atom_mask: טנזור 1D עם צורה (60, ) המאחסנת מסכות צמתים. 1 מציין שהאטום המתאים הוא אמיתי, אחרת מרופד. pair_mask: טנזור דו-ממדי עם צורה (60, 60) המאחסנת מסכות קצה. 1 מציין שהקצה המתאים הוא אמיתי, אחרת מרופד. פעיל: וקטור חם אחד המציין אם המולקולה רעילה או לא. [0, 1] מציין שהוא רעיל, אחרת [1, 0] אינו רעיל.

הפניות

[1]: VB Siramshetty et al. הערכה קריטית של שיטות בינה מלאכותית לחיזוי עיכוב ערוץ hERG בעידן הביג דאטה. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. רשתות עצביות גרפיות אמינות לגילוי תרופות בשינוי תפוצה. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951

לְפַצֵל דוגמאות
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • מבנה תכונה :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פָּעִיל מוֹתֵחַ (2,) int64
atom_mask מוֹתֵחַ (60,) לצוף32
אטומים מוֹתֵחַ (60, 27) לצוף32
dist2topk_nbs מוֹתֵחַ (1,) לצוף32
molecule_id מוֹתֵחַ חוּט
pair_mask מוֹתֵחַ (60, 60) לצוף32
זוגות מוֹתֵחַ (60, 60, 12) לצוף32
  • ציטוט :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}