genomics_ood

  • คำอธิบาย :

การระบุแบคทีเรียโดยอิงจากลำดับจีโนมถือเป็นคำมั่นสัญญาในการตรวจหาโรคในระยะเริ่มต้น แต่ต้องใช้แบบจำลองที่สามารถให้ผลการคาดการณ์ที่มีความเชื่อมั่นต่ำเกี่ยวกับลำดับจีโนมที่ไม่อยู่ในการกระจาย (OOD) จากแบคทีเรียใหม่ที่ไม่มีอยู่ในข้อมูลการฝึกอบรม

เราแนะนำชุดข้อมูลจีโนมิกส์สำหรับการตรวจจับ OOD ที่ช่วยให้นักวิจัยคนอื่นๆ สามารถวัดความก้าวหน้าของปัญหาสำคัญนี้ได้ แบคทีเรียประเภทใหม่จะค่อยๆ ค้นพบในช่วงหลายปีที่ผ่านมา การจัดกลุ่มชั้นเรียนตามปีเป็นวิธีธรรมชาติในการเลียนแบบตัวอย่างการแจกจ่ายและ OOD

ชุดข้อมูลประกอบด้วยลำดับจีโนมที่สุ่มตัวอย่างจากแบคทีเรีย 10 คลาสที่ถูกค้นพบก่อนปี 2554 เป็นคลาสที่แจกจ่าย แบคทีเรีย 60 คลาสที่ค้นพบระหว่างปี 2554-2559 เป็น OOD สำหรับการตรวจสอบ และอีก 60 คลาสของแบคทีเรียที่แตกต่างกันที่ค้นพบหลังปี 2559 เป็น OOD สำหรับการทดสอบ ในแบคทีเรียทั้งหมด 130 คลาส โปรดทราบว่าข้อมูลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบมีไว้สำหรับคลาสในการแจกจ่าย และข้อมูลการตรวจสอบและการทดสอบมีไว้สำหรับคลาส OOD โดยธรรมชาติแล้ว ข้อมูล OOD จะไม่สามารถใช้ได้ในขณะฝึกอบรม

ลำดับจีโนมมีความยาว 250 ตัว ประกอบด้วยอักขระ {A, C, G, T} ขนาดตัวอย่างของแต่ละชั้นเรียนคือ 100,000 ในการฝึกอบรมและ 10,000 สำหรับการตรวจสอบความถูกต้องและชุดการทดสอบ

สำหรับแต่ละตัวอย่าง คุณลักษณะประกอบด้วย: seq: ลำดับดีเอ็นเออินพุตที่ประกอบด้วย {A, C, G, T} ป้ายกำกับ: ชื่อชั้นของแบคทีเรีย. seq_info: แหล่งที่มาของลำดับดีเอ็นเอ เช่น ชื่อจีโนม หมายเลขทะเบียน NCBI และตำแหน่งที่สุ่มตัวอย่างมา โดเมน: ถ้าแบคทีเรียอยู่ในการกระจาย (ใน) หรือ OOD (ood)

รายละเอียดของชุดข้อมูลสามารถพบได้ในกระดาษเสริม

แยก ตัวอย่าง
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
โดเมน ข้อความ สตริง
ฉลาก ป้ายกำกับคลาส int64
รองลงมา ข้อความ สตริง
seq_info ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}