- विवरण :
जीनोमिक अनुक्रमों के आधार पर बैक्टीरिया की पहचान में बीमारियों का जल्द पता लगाने का वादा होता है, लेकिन एक ऐसे मॉडल की आवश्यकता होती है जो नए बैक्टीरिया से आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) जीनोमिक अनुक्रमों पर कम आत्मविश्वास की भविष्यवाणियों का उत्पादन कर सके जो प्रशिक्षण डेटा में मौजूद नहीं थे।
हम ओओडी पहचान के लिए एक जीनोमिक्स डेटासेट पेश करते हैं जो अन्य शोधकर्ताओं को इस महत्वपूर्ण समस्या पर बेंचमार्क प्रगति की अनुमति देता है। पिछले कुछ वर्षों में नए जीवाणु वर्ग धीरे-धीरे खोजे गए हैं। वर्षों से ग्रुपिंग कक्षाएं इन-डिस्ट्रीब्यूशन और ओओडी उदाहरणों की नकल करने का एक स्वाभाविक तरीका है।
डेटासेट में 10 बैक्टीरिया वर्गों से लिए गए जीनोमिक अनुक्रम शामिल हैं जिन्हें वर्ष 2011 से पहले इन-डिस्ट्रीब्यूशन कक्षाओं के रूप में खोजा गया था, सत्यापन के लिए OOD के रूप में 2011-2016 के बीच 60 बैक्टीरिया वर्गों की खोज की गई थी, और 2016 के बाद परीक्षण के लिए OOD के रूप में खोजे गए अन्य 60 विभिन्न बैक्टीरिया वर्ग थे। कुल 130 बैक्टीरिया वर्गों में। ध्यान दें कि वितरण कक्षाओं के लिए प्रशिक्षण, सत्यापन और परीक्षण डेटा प्रदान किए जाते हैं, और ओओडी कक्षाओं के लिए सत्यापन और परीक्षण डेटा प्रदान किए जाते हैं। इसकी प्रकृति से, प्रशिक्षण के समय OOD डेटा उपलब्ध नहीं है।
जीनोमिक अनुक्रम 250 लंबा है, जो {A, C, G, T} के वर्णों से बना है। प्रशिक्षण में प्रत्येक वर्ग का नमूना आकार 100,000 और सत्यापन और परीक्षण सेट के लिए 10,000 है।
प्रत्येक उदाहरण के लिए, सुविधाओं में शामिल हैं: seq: {ए, सी, जी, टी} द्वारा रचित इनपुट डीएनए अनुक्रम। लेबल: जीवाणु वर्ग का नाम। seq_info: डीएनए अनुक्रम का स्रोत, यानी, जीनोम का नाम, NCBI परिग्रहण संख्या, और वह स्थान जहाँ से इसका नमूना लिया गया था। डोमेन: यदि बैक्टीरिया इन-डिस्ट्रीब्यूशन (इन), या OOD (ood) है
डेटासेट का विवरण पेपर सप्लीमेंट में पाया जा सकता है।
होमपेज : https://github.com/google-research/google-research/tree/master/genomics_ood
स्रोत कोड :
tfds.structured.GenomicsOod
संस्करण :
-
0.0.1
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown size
डेटासेट का आकार :
926.87 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- फ़ीचर संरचना :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कार्यक्षेत्र | मूलपाठ | डोरी | ||
लेबल | क्लासलेबल | int64 | ||
स्व-परीक्षा प्रश्न | मूलपाठ | डोरी | ||
seq_info | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('seq', 'label')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}