- Descrizione :
L'identificazione dei batteri basata su sequenze genomiche mantiene la promessa di una diagnosi precoce delle malattie, ma richiede un modello in grado di produrre previsioni a bassa confidenza su sequenze genomiche fuori distribuzione (OOD) da nuovi batteri che non erano presenti nei dati di addestramento.
Introduciamo un set di dati di genomica per il rilevamento di OOD che consente ad altri ricercatori di confrontare i progressi su questo importante problema. Nuove classi batteriche vengono gradualmente scoperte nel corso degli anni. Raggruppare le classi per anni è un modo naturale per imitare gli esempi in-distribution e OOD.
Il set di dati contiene sequenze genomiche campionate da 10 classi di batteri scoperte prima del 2011 come classi in distribuzione, 60 classi di batteri scoperte tra il 2011-2016 come OOD per la convalida e altre 60 diverse classi di batteri scoperte dopo il 2016 come OOD per il test, in totale 130 classi di batteri. Si noti che i dati di addestramento, convalida e test vengono forniti per le classi in distribuzione e i dati di convalida e test vengono forniti per le classi OOD. Per sua natura, i dati OOD non sono disponibili al momento dell'addestramento.
La sequenza genomica è lunga 250, composta dai caratteri di {A, C, G, T}. La dimensione del campione di ogni classe è 100.000 nella formazione e 10.000 per i set di convalida e test.
Per ogni esempio, le caratteristiche includono: seq: la sequenza del DNA di input composta da {A, C, G, T}. etichetta: il nome della classe di batteri. seq_info: la fonte della sequenza del DNA, cioè il nome del genoma, il numero di accesso all'NCBI e la posizione da cui è stato campionato. dominio: se il batterio è in distribuzione (in), o OOD (ood)
I dettagli del set di dati sono disponibili nel documento supplementare.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/google-research/google-research/tree/master/genomics_ood
Codice sorgente :
tfds.structured.GenomicsOod
Versioni :
-
0.0.1
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati:
926.87 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 100.000 |
'test_ood' | 600.000 |
'train' | 1.000.000 |
'validation' | 100.000 |
'validation_ood' | 600.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
dominio | Testo | corda | ||
etichetta | ClassLabel | int64 | ||
seg | Testo | corda | ||
seq_info | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('seq', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}