- Descripción :
La identificación de bacterias basada en secuencias genómicas promete la detección temprana de enfermedades, pero requiere un modelo que pueda generar predicciones de baja confianza sobre secuencias genómicas fuera de distribución (OOD) de nuevas bacterias que no estaban presentes en los datos de entrenamiento.
Presentamos un conjunto de datos genómicos para la detección de OOD que permite a otros investigadores comparar el progreso en este importante problema. A lo largo de los años se descubren gradualmente nuevas clases de bacterias. Agrupar clases por años es una forma natural de imitar los ejemplos de distribución y OOD.
El conjunto de datos contiene secuencias genómicas muestreadas de 10 clases de bacterias que se descubrieron antes del año 2011 como clases en distribución, 60 clases de bacterias descubiertas entre 2011 y 2016 como OOD para validación y otras 60 clases de bacterias diferentes descubiertas después de 2016 como OOD para prueba. en total 130 clases de bacterias. Tenga en cuenta que se proporcionan datos de capacitación, validación y prueba para las clases en distribución, y datos de validación y prueba para las clases OOD. Por su naturaleza, los datos OOD no están disponibles en el momento del entrenamiento.
La secuencia genómica tiene una longitud de 250, compuesta por caracteres de {A, C, G, T}. El tamaño de la muestra de cada clase es de 100.000 en el entrenamiento y 10.000 para los conjuntos de validación y prueba.
Para cada ejemplo, las características incluyen: seq: la secuencia de ADN de entrada compuesta por {A, C, G, T}. etiqueta: el nombre de la clase de bacteria. seq_info: la fuente de la secuencia de ADN, es decir, el nombre del genoma, el número de acceso de NCBI y la posición de donde se tomó la muestra. dominio: si la bacteria está en distribución (in), o OOD (ood)
Los detalles del conjunto de datos se pueden encontrar en el artículo complementario.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research/google-research/tree/master/genomics_ood
Código fuente :
tfds.structured.GenomicsOod
Versiones :
-
0.0.1
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
926.87 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 100,000 |
'test_ood' | 600.000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600.000 |
- Estructura de características :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
dominio | Texto | cuerda | ||
etiqueta | Etiqueta de clase | int64 | ||
secuencia | Texto | cuerda | ||
seq_info | Texto | cuerda |
Claves supervisadas (ver
as_supervised
doc ):('seq', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}