genomics_ood

  • توضیحات :

شناسایی باکتری‌ها بر اساس توالی‌های ژنومی نوید تشخیص زودهنگام بیماری‌ها را دارد، اما نیاز به مدلی دارد که بتواند پیش‌بینی‌های با اطمینان پایین روی توالی‌های ژنومی خارج از توزیع (OOD) از باکتری‌های جدیدی که در داده‌های آموزشی وجود نداشتند، ارائه دهد.

ما یک مجموعه داده ژنومیک را برای تشخیص OOD معرفی می‌کنیم که به سایر محققان امکان می‌دهد پیشرفت را در این مشکل مهم محک بزنند. کلاس های باکتریایی جدید به تدریج در طول سال ها کشف می شوند. گروه بندی کلاس ها بر اساس سال یک روش طبیعی برای تقلید از نمونه های در توزیع و OOD است.

مجموعه داده شامل توالی های ژنومی نمونه برداری شده از 10 کلاس باکتری است که قبل از سال 2011 به عنوان کلاس های توزیعی کشف شده بودند، 60 کلاس باکتری که بین سال های 2011-2016 به عنوان OOD برای اعتبار سنجی کشف شده بودند، و 60 کلاس باکتری دیگر که پس از سال 2016 به عنوان OOD برای آزمایش کشف شدند. در مجموع 130 کلاس باکتری. توجه داشته باشید که داده‌های آموزش، اعتبارسنجی و آزمایش برای کلاس‌های درون توزیعی و داده‌های اعتبارسنجی و آزمون برای کلاس‌های OOD ارائه شده‌اند. طبق ماهیت خود، داده های OOD در زمان آموزش در دسترس نیستند.

توالی ژنومی 250 طول دارد که توسط کاراکترهای {A، C، G، T} تشکیل شده است. حجم نمونه هر کلاس 100000 در آموزش و 10000 برای اعتبارسنجی و مجموعه تست می باشد.

برای هر مثال، ویژگی ها عبارتند از: seq: توالی DNA ورودی که توسط {A، C، G، T} تشکیل شده است. برچسب: نام کلاس باکتری. seq_info: منبع توالی DNA، به عنوان مثال، نام ژنوم، شماره دسترسی NCBI، و موقعیتی که از آن نمونه برداری شده است. دامنه: اگر باکتری در توزیع (in) باشد یا OOD (ood)

جزئیات مجموعه داده را می توان در مقاله تکمیلی یافت.

شکاف مثال ها
'test' 100000
'test_ood' 600000
'train' 1,000,000
'validation' 100000
'validation_ood' 600000
  • ساختار ویژگی :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
دامنه متن رشته
برچسب ClassLabel int64
دنباله متن رشته
seq_info متن رشته
  • نقل قول :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}