علم الجينوم

  • الوصف :

إن تحديد البكتيريا على أساس التسلسل الجينومي يبشر بالكشف المبكر عن الأمراض ، ولكنه يتطلب نموذجًا يمكنه إنتاج تنبؤات ثقة منخفضة بشأن التسلسلات الجينية خارج التوزيع (OOD) من بكتيريا جديدة لم تكن موجودة في بيانات التدريب.

نقدم مجموعة بيانات الجينوم لاكتشاف OOD التي تسمح للباحثين الآخرين بقياس التقدم المحرز في هذه المشكلة المهمة. يتم اكتشاف فئات بكتيرية جديدة تدريجيًا على مر السنين. يعد تجميع الفئات حسب السنوات طريقة طبيعية لتقليد أمثلة التوزيع الداخلي وأمثلة OOD.

تحتوي مجموعة البيانات على تسلسلات جينومية مأخوذة من 10 فئات بكتيريا تم اكتشافها قبل عام 2011 كفئة داخل التوزيع ، و 60 فئة بكتيريا تم اكتشافها بين 2011-2016 على أنها OOD للتحقق من الصحة ، و 60 فئة أخرى من البكتيريا تم اكتشافها بعد عام 2016 على أنها OOD للاختبار ، في المجموع 130 فئة من البكتيريا. لاحظ أنه يتم توفير بيانات التدريب والتحقق من الصحة والاختبار لفئات التوزيع ، ويتم توفير بيانات التحقق من الصحة والاختبار لفئات OOD. بحكم طبيعتها ، لا تتوفر بيانات OOD في وقت التدريب.

يبلغ طول التسلسل الجينومي 250 ، ويتألف من أحرف {A ، C ، G ، T}. حجم العينة لكل فصل هو 100000 في التدريب و 10000 لمجموعات التحقق من الصحة والاختبار.

لكل مثال ، الميزات تتضمن: seq: تسلسل DNA الإدخال المؤلف من {A، C، G، T}. التسمية: اسم فئة البكتيريا. seq_info: مصدر تسلسل الحمض النووي ، أي اسم الجينوم ورقم دخول NCBI والموقع الذي تم أخذ العينة منه. المجال: إذا كانت البكتيريا قيد التوزيع (في) ، أو OOD (فيضان)

يمكن العثور على تفاصيل مجموعة البيانات في الملحق الورقي.

انشق، مزق أمثلة
'test' 100،000
'test_ood' 600000
'train' 1،000،000
'validation' 100،000
'validation_ood' 600000
  • هيكل الميزة :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
نطاق نص سلسلة
ضع الكلمة المناسبة ClassLabel int64
فيما يليها نص سلسلة
seq_info نص سلسلة
  • الاقتباس :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}