- 설명 :
게놈 서열에 기반한 박테리아 식별은 질병의 조기 발견 가능성을 가지고 있지만 훈련 데이터에 존재하지 않는 새로운 박테리아의 분포 외(OOD) 게놈 서열에 대한 신뢰도가 낮은 예측을 출력할 수 있는 모델이 필요합니다.
우리는 다른 연구자들이 이 중요한 문제에 대한 진행 상황을 벤치마킹할 수 있는 OOD 감지를 위한 유전체학 데이터 세트를 소개합니다. 새로운 박테리아 종류는 수년에 걸쳐 점차적으로 발견됩니다. 연도별로 클래스를 그룹화하는 것은 배포 및 OOD 예제를 모방하는 자연스러운 방법입니다.
이 데이터 세트에는 2011년 이전에 분포 클래스로 발견된 10개의 박테리아 클래스, 검증을 위한 OOD로 2011-2016년 사이에 발견된 60개의 박테리아 클래스, 테스트를 위한 OOD로 2016년 이후에 발견된 또 다른 60개의 박테리아 클래스에서 샘플링된 게놈 시퀀스가 포함되어 있습니다. 총 130개의 박테리아 클래스. 배포 내 클래스의 경우 교육, 검증 및 테스트 데이터가 제공되고 OOD 클래스의 경우 검증 및 테스트 데이터가 제공됩니다. 본질적으로 OOD 데이터는 교육 시간에 사용할 수 없습니다.
게놈 서열은 {A, C, G, T}의 문자로 구성된 250 길이입니다. 각 클래스의 샘플 크기는 교육에서 100,000이고 검증 및 테스트 세트에서 10,000입니다.
각 예에 대해 기능에는 다음이 포함됩니다. seq: {A, C, G, T}로 구성된 입력 DNA 시퀀스. 레이블: 박테리아 클래스의 이름입니다. seq_info: DNA 시퀀스의 소스, 즉 게놈 이름, NCBI 접근 번호 및 샘플링 위치. 도메인: 박테리아가 분포(in)인 경우 또는 OOD(ood)
데이터 세트의 세부 사항은 종이 보충 자료에서 찾을 수 있습니다.
홈페이지 : https://github.com/google-research/google-research/tree/master/genomics_ood
소스 코드 :
tfds.structured.GenomicsOod
버전 :
-
0.0.1
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터 세트 크기 :
926.87 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- 기능 구조 :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
도메인 | 텍스트 | 끈 | ||
상표 | 클래스 레이블 | int64 | ||
시퀀스 | 텍스트 | 끈 | ||
seq_info | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('seq', 'label')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}