génomique_nourriture

  • Descriptif :

L'identification des bactéries basée sur des séquences génomiques promet une détection précoce des maladies, mais nécessite un modèle capable de produire des prédictions de faible confiance sur les séquences génomiques hors distribution (OOD) de nouvelles bactéries qui n'étaient pas présentes dans les données de formation.

Nous introduisons un ensemble de données génomiques pour la détection OOD qui permet à d'autres chercheurs de comparer les progrès sur ce problème important. De nouvelles classes bactériennes sont progressivement découvertes au fil des années. Regrouper les classes par années est un moyen naturel d'imiter les exemples de distribution et OOD.

L'ensemble de données contient des séquences génomiques échantillonnées à partir de 10 classes de bactéries qui ont été découvertes avant l'année 2011 en tant que classes de distribution, 60 classes de bactéries découvertes entre 2011 et 2016 en tant que OOD pour validation et 60 autres classes de bactéries différentes découvertes après 2016 en tant que OOD pour test, au total 130 classes de bactéries. Notez que les données de formation, de validation et de test sont fournies pour les classes en distribution, et que les données de validation et de test sont fournies pour les classes OOD. De par leur nature, les données OOD ne sont pas disponibles au moment de la formation.

La séquence génomique est longue de 250, composée des caractères {A, C, G, T}. La taille de l'échantillon de chaque classe est de 100 000 pour la formation et de 10 000 pour les ensembles de validation et de test.

Pour chaque exemple, les caractéristiques incluent : seq : la séquence d'ADN d'entrée composée de {A, C, G, T}. label : le nom de la classe de bactéries. seq_info : la source de la séquence d'ADN, c'est-à-dire le nom du génome, le numéro d'accès NCBI et la position à partir de laquelle il a été prélevé. domaine : si la bactérie est en distribution (in), ou OOD (ood)

Les détails de l'ensemble de données peuvent être trouvés dans le document supplémentaire.

Diviser Exemples
'test' 100 000
'test_ood' 600 000
'train' 1 000 000
'validation' 100 000
'validation_ood' 600 000
  • Structure des fonctionnalités :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
domaine Texte chaîne de caractères
étiquette Étiquette de classe int64
suite Texte chaîne de caractères
seq_info Texte chaîne de caractères
  • Citation :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}