- Descriptif :
L'identification des bactéries basée sur des séquences génomiques promet une détection précoce des maladies, mais nécessite un modèle capable de produire des prédictions de faible confiance sur les séquences génomiques hors distribution (OOD) de nouvelles bactéries qui n'étaient pas présentes dans les données de formation.
Nous introduisons un ensemble de données génomiques pour la détection OOD qui permet à d'autres chercheurs de comparer les progrès sur ce problème important. De nouvelles classes bactériennes sont progressivement découvertes au fil des années. Regrouper les classes par années est un moyen naturel d'imiter les exemples de distribution et OOD.
L'ensemble de données contient des séquences génomiques échantillonnées à partir de 10 classes de bactéries qui ont été découvertes avant l'année 2011 en tant que classes de distribution, 60 classes de bactéries découvertes entre 2011 et 2016 en tant que OOD pour validation et 60 autres classes de bactéries différentes découvertes après 2016 en tant que OOD pour test, au total 130 classes de bactéries. Notez que les données de formation, de validation et de test sont fournies pour les classes en distribution, et que les données de validation et de test sont fournies pour les classes OOD. De par leur nature, les données OOD ne sont pas disponibles au moment de la formation.
La séquence génomique est longue de 250, composée des caractères {A, C, G, T}. La taille de l'échantillon de chaque classe est de 100 000 pour la formation et de 10 000 pour les ensembles de validation et de test.
Pour chaque exemple, les caractéristiques incluent : seq : la séquence d'ADN d'entrée composée de {A, C, G, T}. label : le nom de la classe de bactéries. seq_info : la source de la séquence d'ADN, c'est-à-dire le nom du génome, le numéro d'accès NCBI et la position à partir de laquelle il a été prélevé. domaine : si la bactérie est en distribution (in), ou OOD (ood)
Les détails de l'ensemble de données peuvent être trouvés dans le document supplémentaire.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research/google-research/tree/master/genomics_ood
Code source :
tfds.structured.GenomicsOod
Versions :
-
0.0.1
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
926.87 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 100 000 |
'test_ood' | 600 000 |
'train' | 1 000 000 |
'validation' | 100 000 |
'validation_ood' | 600 000 |
- Structure des fonctionnalités :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
domaine | Texte | chaîne de caractères | ||
étiquette | Étiquette de classe | int64 | ||
suite | Texte | chaîne de caractères | ||
seq_info | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('seq', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}