- الوصف :
إن تحديد البكتيريا على أساس التسلسل الجينومي يبشر بالكشف المبكر عن الأمراض ، ولكنه يتطلب نموذجًا يمكنه إنتاج تنبؤات ثقة منخفضة بشأن التسلسلات الجينية خارج التوزيع (OOD) من بكتيريا جديدة لم تكن موجودة في بيانات التدريب.
نقدم مجموعة بيانات الجينوم لاكتشاف OOD التي تسمح للباحثين الآخرين بقياس التقدم المحرز في هذه المشكلة المهمة. يتم اكتشاف فئات بكتيرية جديدة تدريجيًا على مر السنين. يعد تجميع الفئات حسب السنوات طريقة طبيعية لتقليد أمثلة التوزيع الداخلي وأمثلة OOD.
تحتوي مجموعة البيانات على تسلسلات جينومية مأخوذة من 10 فئات بكتيريا تم اكتشافها قبل عام 2011 كفئة داخل التوزيع ، و 60 فئة بكتيريا تم اكتشافها بين 2011-2016 على أنها OOD للتحقق من الصحة ، و 60 فئة أخرى من البكتيريا تم اكتشافها بعد عام 2016 على أنها OOD للاختبار ، في المجموع 130 فئة من البكتيريا. لاحظ أنه يتم توفير بيانات التدريب والتحقق من الصحة والاختبار لفئات التوزيع ، ويتم توفير بيانات التحقق من الصحة والاختبار لفئات OOD. بحكم طبيعتها ، لا تتوفر بيانات OOD في وقت التدريب.
يبلغ طول التسلسل الجينومي 250 ، ويتألف من أحرف {A ، C ، G ، T}. حجم العينة لكل فصل هو 100000 في التدريب و 10000 لمجموعات التحقق من الصحة والاختبار.
لكل مثال ، الميزات تتضمن: seq: تسلسل DNA الإدخال المؤلف من {A، C، G، T}. التسمية: اسم فئة البكتيريا. seq_info: مصدر تسلسل الحمض النووي ، أي اسم الجينوم ورقم دخول NCBI والموقع الذي تم أخذ العينة منه. المجال: إذا كانت البكتيريا قيد التوزيع (في) ، أو OOD (فيضان)
يمكن العثور على تفاصيل مجموعة البيانات في الملحق الورقي.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research/google-research/tree/master/genomics_ood
كود المصدر :
tfds.structured.GenomicsOod
إصدارات :
-
0.0.1
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التنزيل :
Unknown size
حجم مجموعة البيانات :
926.87 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 100،000 |
'test_ood' | 600000 |
'train' | 1،000،000 |
'validation' | 100،000 |
'validation_ood' | 600000 |
- هيكل الميزة :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
نطاق | نص | سلسلة | ||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
فيما يليها | نص | سلسلة | ||
seq_info | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('seq', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}