- คำอธิบาย :
การระบุแบคทีเรียโดยอิงจากลำดับจีโนมถือเป็นคำมั่นสัญญาในการตรวจหาโรคในระยะเริ่มต้น แต่ต้องใช้แบบจำลองที่สามารถให้ผลการคาดการณ์ที่มีความเชื่อมั่นต่ำเกี่ยวกับลำดับจีโนมที่ไม่อยู่ในการกระจาย (OOD) จากแบคทีเรียใหม่ที่ไม่มีอยู่ในข้อมูลการฝึกอบรม
เราแนะนำชุดข้อมูลจีโนมิกส์สำหรับการตรวจจับ OOD ที่ช่วยให้นักวิจัยคนอื่นๆ สามารถวัดความก้าวหน้าของปัญหาสำคัญนี้ได้ แบคทีเรียประเภทใหม่จะค่อยๆ ค้นพบในช่วงหลายปีที่ผ่านมา การจัดกลุ่มชั้นเรียนตามปีเป็นวิธีธรรมชาติในการเลียนแบบตัวอย่างการแจกจ่ายและ OOD
ชุดข้อมูลประกอบด้วยลำดับจีโนมที่สุ่มตัวอย่างจากแบคทีเรีย 10 คลาสที่ถูกค้นพบก่อนปี 2554 เป็นคลาสที่แจกจ่าย แบคทีเรีย 60 คลาสที่ค้นพบระหว่างปี 2554-2559 เป็น OOD สำหรับการตรวจสอบ และอีก 60 คลาสของแบคทีเรียที่แตกต่างกันที่ค้นพบหลังปี 2559 เป็น OOD สำหรับการทดสอบ ในแบคทีเรียทั้งหมด 130 คลาส โปรดทราบว่าข้อมูลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบมีไว้สำหรับคลาสในการแจกจ่าย และข้อมูลการตรวจสอบและการทดสอบมีไว้สำหรับคลาส OOD โดยธรรมชาติแล้ว ข้อมูล OOD จะไม่สามารถใช้ได้ในขณะฝึกอบรม
ลำดับจีโนมมีความยาว 250 ตัว ประกอบด้วยอักขระ {A, C, G, T} ขนาดตัวอย่างของแต่ละชั้นเรียนคือ 100,000 ในการฝึกอบรมและ 10,000 สำหรับการตรวจสอบความถูกต้องและชุดการทดสอบ
สำหรับแต่ละตัวอย่าง คุณลักษณะประกอบด้วย: seq: ลำดับดีเอ็นเออินพุตที่ประกอบด้วย {A, C, G, T} ป้ายกำกับ: ชื่อชั้นของแบคทีเรีย. seq_info: แหล่งที่มาของลำดับดีเอ็นเอ เช่น ชื่อจีโนม หมายเลขทะเบียน NCBI และตำแหน่งที่สุ่มตัวอย่างมา โดเมน: ถ้าแบคทีเรียอยู่ในการกระจาย (ใน) หรือ OOD (ood)
รายละเอียดของชุดข้อมูลสามารถพบได้ในกระดาษเสริม
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/google-research/google-research/tree/master/genomics_ood
รหัสที่มา :
tfds.structured.GenomicsOod
รุ่น :
-
0.0.1
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
926.87 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
โดเมน | ข้อความ | สตริง | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
รองลงมา | ข้อความ | สตริง | ||
seq_info | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('seq', 'label')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}