genomics_ood

  • বর্ণনা :

জিনোমিক সিকোয়েন্সের উপর ভিত্তি করে ব্যাকটেরিয়া সনাক্তকরণ রোগের প্রাথমিক সনাক্তকরণের প্রতিশ্রুতি ধারণ করে, তবে এমন একটি মডেলের প্রয়োজন যা প্রশিক্ষণের ডেটাতে উপস্থিত ছিল না এমন নতুন ব্যাকটেরিয়া থেকে আউট-অফ-ডিস্ট্রিবিউশন (OOD) জিনোমিক সিকোয়েন্সের উপর কম আত্মবিশ্বাসের পূর্বাভাস দিতে পারে।

আমরা OOD সনাক্তকরণের জন্য একটি জিনোমিক্স ডেটাসেট প্রবর্তন করি যা অন্যান্য গবেষকদের এই গুরুত্বপূর্ণ সমস্যাটির অগ্রগতি বেঞ্চমার্ক করতে দেয়। বছরের পর বছর ধরে নতুন ব্যাকটেরিয়া শ্রেণী ধীরে ধীরে আবিষ্কৃত হয়। বন্টন এবং OOD উদাহরণগুলি অনুকরণ করার একটি প্রাকৃতিক উপায় হল বছর অনুসারে ক্লাসগুলিকে গোষ্ঠীবদ্ধ করা৷

ডেটাসেটে 10টি ব্যাকটেরিয়া ক্লাস থেকে নমুনা নেওয়া জিনোমিক সিকোয়েন্স রয়েছে যা 2011 সালের আগে ইন-ডিস্ট্রিবিউশন ক্লাস হিসাবে আবিষ্কৃত হয়েছিল, 2011-2016-এর মধ্যে 60টি ব্যাকটেরিয়া ক্লাস যাচাইকরণের জন্য OOD হিসাবে আবিষ্কৃত হয়েছিল, এবং 2016-এর পরে OD টেস্ট হিসাবে আবিষ্কৃত আরও 60টি ভিন্ন ব্যাকটেরিয়া ক্লাস রয়েছে। মোট 130টি ব্যাকটেরিয়া ক্লাস। মনে রাখবেন যে প্রশিক্ষণ, বৈধতা, এবং পরীক্ষার ডেটা ইন-ডিস্ট্রিবিউশন ক্লাসের জন্য সরবরাহ করা হয় এবং OOD ক্লাসের জন্য বৈধতা এবং পরীক্ষার ডেটা সরবরাহ করা হয়। এর প্রকৃতি অনুসারে, প্রশিক্ষণের সময় ওওডি ডেটা পাওয়া যায় না।

জিনোমিক ক্রমটি 250 দীর্ঘ, {A, C, G, T} অক্ষর দ্বারা গঠিত। প্রশিক্ষণে প্রতিটি ক্লাসের নমুনার আকার 100,000 এবং বৈধতা এবং পরীক্ষা সেটের জন্য 10,000।

প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: seq: {A, C, G, T} দ্বারা গঠিত ইনপুট DNA ক্রম। লেবেল: ব্যাকটেরিয়া শ্রেণীর নাম। seq_info: ডিএনএ সিকোয়েন্সের উৎস, অর্থাৎ, জিনোমের নাম, এনসিবিআই অ্যাক্সিশন নম্বর এবং যে অবস্থান থেকে নমুনা নেওয়া হয়েছিল। ডোমেইন: যদি ব্যাকটেরিয়া ইন-ডিস্ট্রিবিউশন (ইন), বা OOD (ood) হয়

ডেটাসেটের বিশদ বিবরণ কাগজের পরিপূরকটিতে পাওয়া যাবে।

বিভক্ত উদাহরণ
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ডোমেইন পাঠ্য স্ট্রিং
লেবেল ক্লাসলেবেল int64
seq পাঠ্য স্ট্রিং
seq_info পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}