génomique_nourriture

Descriptif :

L'identification des bactéries basée sur des séquences génomiques promet une détection précoce des maladies, mais nécessite un modèle capable de produire des prédictions de faible confiance sur les séquences génomiques hors distribution (OOD) de nouvelles bactéries qui n'étaient pas présentes dans les données de formation.

Nous introduisons un ensemble de données génomiques pour la détection OOD qui permet à d'autres chercheurs de comparer les progrès sur ce problème important. De nouvelles classes bactériennes sont progressivement découvertes au fil des années. Regrouper les classes par années est un moyen naturel d'imiter les exemples de distribution et OOD.

L'ensemble de données contient des séquences génomiques échantillonnées à partir de 10 classes de bactéries qui ont été découvertes avant l'année 2011 en tant que classes de distribution, 60 classes de bactéries découvertes entre 2011 et 2016 en tant que OOD pour validation et 60 autres classes de bactéries différentes découvertes après 2016 en tant que OOD pour test, au total 130 classes de bactéries. Notez que les données de formation, de validation et de test sont fournies pour les classes en distribution, et que les données de validation et de test sont fournies pour les classes OOD. De par leur nature, les données OOD ne sont pas disponibles au moment de la formation.

La séquence génomique est longue de 250, composée des caractères {A, C, G, T}. La taille de l'échantillon de chaque classe est de 100 000 pour la formation et de 10 000 pour les ensembles de validation et de test.

Pour chaque exemple, les caractéristiques incluent : seq : la séquence d'ADN d'entrée composée de {A, C, G, T}. label : le nom de la classe de bactéries. seq_info : la source de la séquence d'ADN, c'est-à-dire le nom du génome, le numéro d'accès NCBI et la position à partir de laquelle il a été prélevé. domaine : si la bactérie est en distribution (in), ou OOD (ood)

Les détails de l'ensemble de données peuvent être trouvés dans le document supplémentaire.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research/google-research/tree/master/genomics_ood
Code source : tfds.structured.GenomicsOod
Versions :
- 0.0.1 (par défaut) : aucune note de version.
Taille du téléchargement : Unknown size
Taille du jeu de données : 926.87 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	100 000
`'test_ood'`	600 000
`'train'`	1 000 000
`'validation'`	100 000
`'validation_ood'`	600 000

Structure des fonctionnalités :

FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
domaine	Texte	chaîne de caractères
étiquette	Étiquette de classe	int64
suite	Texte	chaîne de caractères
seq_info	Texte	chaîne de caractères

Touches supervisées (Voir as_supervised doc ): ('seq', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}

génomique_nourriture Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

génomique_nourriture