जीनोमिक्स_ओड

  • विवरण :

जीनोमिक अनुक्रमों के आधार पर बैक्टीरिया की पहचान में बीमारियों का जल्द पता लगाने का वादा होता है, लेकिन एक ऐसे मॉडल की आवश्यकता होती है जो नए बैक्टीरिया से आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) जीनोमिक अनुक्रमों पर कम आत्मविश्वास की भविष्यवाणियों का उत्पादन कर सके जो प्रशिक्षण डेटा में मौजूद नहीं थे।

हम ओओडी पहचान के लिए एक जीनोमिक्स डेटासेट पेश करते हैं जो अन्य शोधकर्ताओं को इस महत्वपूर्ण समस्या पर बेंचमार्क प्रगति की अनुमति देता है। पिछले कुछ वर्षों में नए जीवाणु वर्ग धीरे-धीरे खोजे गए हैं। वर्षों से ग्रुपिंग कक्षाएं इन-डिस्ट्रीब्यूशन और ओओडी उदाहरणों की नकल करने का एक स्वाभाविक तरीका है।

डेटासेट में 10 बैक्टीरिया वर्गों से लिए गए जीनोमिक अनुक्रम शामिल हैं जिन्हें वर्ष 2011 से पहले इन-डिस्ट्रीब्यूशन कक्षाओं के रूप में खोजा गया था, सत्यापन के लिए OOD के रूप में 2011-2016 के बीच 60 बैक्टीरिया वर्गों की खोज की गई थी, और 2016 के बाद परीक्षण के लिए OOD के रूप में खोजे गए अन्य 60 विभिन्न बैक्टीरिया वर्ग थे। कुल 130 बैक्टीरिया वर्गों में। ध्यान दें कि वितरण कक्षाओं के लिए प्रशिक्षण, सत्यापन और परीक्षण डेटा प्रदान किए जाते हैं, और ओओडी कक्षाओं के लिए सत्यापन और परीक्षण डेटा प्रदान किए जाते हैं। इसकी प्रकृति से, प्रशिक्षण के समय OOD डेटा उपलब्ध नहीं है।

जीनोमिक अनुक्रम 250 लंबा है, जो {A, C, G, T} के वर्णों से बना है। प्रशिक्षण में प्रत्येक वर्ग का नमूना आकार 100,000 और सत्यापन और परीक्षण सेट के लिए 10,000 है।

प्रत्येक उदाहरण के लिए, सुविधाओं में शामिल हैं: seq: {ए, सी, जी, टी} द्वारा रचित इनपुट डीएनए अनुक्रम। लेबल: जीवाणु वर्ग का नाम। seq_info: डीएनए अनुक्रम का स्रोत, यानी, जीनोम का नाम, NCBI परिग्रहण संख्या, और वह स्थान जहाँ से इसका नमूना लिया गया था। डोमेन: यदि बैक्टीरिया इन-डिस्ट्रीब्यूशन (इन), या OOD (ood) है

डेटासेट का विवरण पेपर सप्लीमेंट में पाया जा सकता है।

विभाजित करना उदाहरण
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • फ़ीचर संरचना :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कार्यक्षेत्र मूलपाठ डोरी
लेबल क्लासलेबल int64
स्व-परीक्षा प्रश्न मूलपाठ डोरी
seq_info मूलपाठ डोरी
  • उद्धरण :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}