- বর্ণনা :
জিনোমিক সিকোয়েন্সের উপর ভিত্তি করে ব্যাকটেরিয়া সনাক্তকরণ রোগের প্রাথমিক সনাক্তকরণের প্রতিশ্রুতি ধারণ করে, তবে এমন একটি মডেলের প্রয়োজন যা প্রশিক্ষণের ডেটাতে উপস্থিত ছিল না এমন নতুন ব্যাকটেরিয়া থেকে আউট-অফ-ডিস্ট্রিবিউশন (OOD) জিনোমিক সিকোয়েন্সের উপর কম আত্মবিশ্বাসের পূর্বাভাস দিতে পারে।
আমরা OOD সনাক্তকরণের জন্য একটি জিনোমিক্স ডেটাসেট প্রবর্তন করি যা অন্যান্য গবেষকদের এই গুরুত্বপূর্ণ সমস্যাটির অগ্রগতি বেঞ্চমার্ক করতে দেয়। বছরের পর বছর ধরে নতুন ব্যাকটেরিয়া শ্রেণী ধীরে ধীরে আবিষ্কৃত হয়। বন্টন এবং OOD উদাহরণগুলি অনুকরণ করার একটি প্রাকৃতিক উপায় হল বছর অনুসারে ক্লাসগুলিকে গোষ্ঠীবদ্ধ করা৷
ডেটাসেটে 10টি ব্যাকটেরিয়া ক্লাস থেকে নমুনা নেওয়া জিনোমিক সিকোয়েন্স রয়েছে যা 2011 সালের আগে ইন-ডিস্ট্রিবিউশন ক্লাস হিসাবে আবিষ্কৃত হয়েছিল, 2011-2016-এর মধ্যে 60টি ব্যাকটেরিয়া ক্লাস যাচাইকরণের জন্য OOD হিসাবে আবিষ্কৃত হয়েছিল, এবং 2016-এর পরে OD টেস্ট হিসাবে আবিষ্কৃত আরও 60টি ভিন্ন ব্যাকটেরিয়া ক্লাস রয়েছে। মোট 130টি ব্যাকটেরিয়া ক্লাস। মনে রাখবেন যে প্রশিক্ষণ, বৈধতা, এবং পরীক্ষার ডেটা ইন-ডিস্ট্রিবিউশন ক্লাসের জন্য সরবরাহ করা হয় এবং OOD ক্লাসের জন্য বৈধতা এবং পরীক্ষার ডেটা সরবরাহ করা হয়। এর প্রকৃতি অনুসারে, প্রশিক্ষণের সময় ওওডি ডেটা পাওয়া যায় না।
জিনোমিক ক্রমটি 250 দীর্ঘ, {A, C, G, T} অক্ষর দ্বারা গঠিত। প্রশিক্ষণে প্রতিটি ক্লাসের নমুনার আকার 100,000 এবং বৈধতা এবং পরীক্ষা সেটের জন্য 10,000।
প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: seq: {A, C, G, T} দ্বারা গঠিত ইনপুট DNA ক্রম। লেবেল: ব্যাকটেরিয়া শ্রেণীর নাম। seq_info: ডিএনএ সিকোয়েন্সের উৎস, অর্থাৎ, জিনোমের নাম, এনসিবিআই অ্যাক্সিশন নম্বর এবং যে অবস্থান থেকে নমুনা নেওয়া হয়েছিল। ডোমেইন: যদি ব্যাকটেরিয়া ইন-ডিস্ট্রিবিউশন (ইন), বা OOD (ood) হয়
ডেটাসেটের বিশদ বিবরণ কাগজের পরিপূরকটিতে পাওয়া যাবে।
হোমপেজ : https://github.com/google-research/google-research/tree/master/genomics_ood
উত্স কোড :
tfds.structured.GenomicsOod
সংস্করণ :
-
0.0.1
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
926.87 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ডোমেইন | পাঠ্য | স্ট্রিং | ||
লেবেল | ক্লাসলেবেল | int64 | ||
seq | পাঠ্য | স্ট্রিং | ||
seq_info | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('seq', 'label')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}