genomics_ood

  • 설명 :

게놈 서열에 기반한 박테리아 식별은 질병의 조기 발견 가능성을 가지고 있지만 훈련 데이터에 존재하지 않는 새로운 박테리아의 분포 외(OOD) 게놈 서열에 대한 신뢰도가 낮은 예측을 출력할 수 있는 모델이 필요합니다.

우리는 다른 연구자들이 이 중요한 문제에 대한 진행 상황을 벤치마킹할 수 있는 OOD 감지를 위한 유전체학 데이터 세트를 소개합니다. 새로운 박테리아 종류는 수년에 걸쳐 점차적으로 발견됩니다. 연도별로 클래스를 그룹화하는 것은 배포 및 OOD 예제를 모방하는 자연스러운 방법입니다.

이 데이터 세트에는 2011년 이전에 분포 클래스로 발견된 10개의 박테리아 클래스, 검증을 위한 OOD로 2011-2016년 사이에 발견된 60개의 박테리아 클래스, 테스트를 위한 OOD로 2016년 이후에 발견된 또 다른 60개의 박테리아 클래스에서 샘플링된 게놈 시퀀스가 ​​포함되어 있습니다. 총 130개의 박테리아 클래스. 배포 내 클래스의 경우 교육, 검증 및 테스트 데이터가 제공되고 OOD 클래스의 경우 검증 및 테스트 데이터가 제공됩니다. 본질적으로 OOD 데이터는 교육 시간에 사용할 수 없습니다.

게놈 서열은 {A, C, G, T}의 문자로 구성된 250 길이입니다. 각 클래스의 샘플 크기는 교육에서 100,000이고 검증 및 테스트 세트에서 10,000입니다.

각 예에 대해 기능에는 다음이 포함됩니다. seq: {A, C, G, T}로 구성된 입력 DNA 시퀀스. 레이블: 박테리아 클래스의 이름입니다. seq_info: DNA 시퀀스의 소스, 즉 게놈 이름, NCBI 접근 번호 및 샘플링 위치. 도메인: 박테리아가 분포(in)인 경우 또는 OOD(ood)

데이터 세트의 세부 사항은 종이 보충 자료에서 찾을 수 있습니다.

나뉘다
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • 기능 구조 :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
도메인 텍스트
상표 클래스 레이블 int64
시퀀스 텍스트
seq_info 텍스트
  • 인용 :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}