- توضیحات :
شناسایی باکتریها بر اساس توالیهای ژنومی نوید تشخیص زودهنگام بیماریها را دارد، اما نیاز به مدلی دارد که بتواند پیشبینیهای با اطمینان پایین روی توالیهای ژنومی خارج از توزیع (OOD) از باکتریهای جدیدی که در دادههای آموزشی وجود نداشتند، ارائه دهد.
ما یک مجموعه داده ژنومیک را برای تشخیص OOD معرفی میکنیم که به سایر محققان امکان میدهد پیشرفت را در این مشکل مهم محک بزنند. کلاس های باکتریایی جدید به تدریج در طول سال ها کشف می شوند. گروه بندی کلاس ها بر اساس سال یک روش طبیعی برای تقلید از نمونه های در توزیع و OOD است.
مجموعه داده شامل توالی های ژنومی نمونه برداری شده از 10 کلاس باکتری است که قبل از سال 2011 به عنوان کلاس های توزیعی کشف شده بودند، 60 کلاس باکتری که بین سال های 2011-2016 به عنوان OOD برای اعتبار سنجی کشف شده بودند، و 60 کلاس باکتری دیگر که پس از سال 2016 به عنوان OOD برای آزمایش کشف شدند. در مجموع 130 کلاس باکتری. توجه داشته باشید که دادههای آموزش، اعتبارسنجی و آزمایش برای کلاسهای درون توزیعی و دادههای اعتبارسنجی و آزمون برای کلاسهای OOD ارائه شدهاند. طبق ماهیت خود، داده های OOD در زمان آموزش در دسترس نیستند.
توالی ژنومی 250 طول دارد که توسط کاراکترهای {A، C، G، T} تشکیل شده است. حجم نمونه هر کلاس 100000 در آموزش و 10000 برای اعتبارسنجی و مجموعه تست می باشد.
برای هر مثال، ویژگی ها عبارتند از: seq: توالی DNA ورودی که توسط {A، C، G، T} تشکیل شده است. برچسب: نام کلاس باکتری. seq_info: منبع توالی DNA، به عنوان مثال، نام ژنوم، شماره دسترسی NCBI، و موقعیتی که از آن نمونه برداری شده است. دامنه: اگر باکتری در توزیع (in) باشد یا OOD (ood)
جزئیات مجموعه داده را می توان در مقاله تکمیلی یافت.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research/google-research/tree/master/genomics_ood
کد منبع :
tfds.structured.GenomicsOod
نسخه ها :
-
0.0.1
(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
926.87 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 100000 |
'test_ood' | 600000 |
'train' | 1,000,000 |
'validation' | 100000 |
'validation_ood' | 600000 |
- ساختار ویژگی :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
دامنه | متن | رشته | ||
برچسب | ClassLabel | int64 | ||
دنباله | متن | رشته | ||
seq_info | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('seq', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}