- 説明:
ゲノム シーケンスに基づく細菌の識別は、病気の早期発見の約束を保持していますが、トレーニング データに存在しなかった新しい細菌から分布外 (OOD) ゲノム シーケンスの信頼性の低い予測を出力できるモデルが必要です。
OOD 検出のためのゲノミクス データセットを紹介します。これにより、他の研究者はこの重要な問題の進捗状況をベンチマークできます。新しい細菌クラスは、何年にもわたって徐々に発見されています。年ごとにクラスをグループ化することは、分布内および OOD の例を模倣する自然な方法です。
このデータセットには、2011 年以前に分布内クラスとして発見された 10 の細菌クラス、検証用の OOD として 2011 年から 2016 年の間に発見された 60 の細菌クラス、およびテスト用の OOD として 2016 年以降に発見された別の 60 の異なる細菌クラスからサンプリングされたゲノム配列が含まれています。合計で 130 の細菌クラス。配布クラスにはトレーニング、検証、およびテスト データが提供され、OOD クラスには検証およびテスト データが提供されることに注意してください。その性質上、OOD データはトレーニング時に利用できません。
ゲノム配列は 250 の長さで、{A、C、G、T} の文字で構成されています。各クラスのサンプル サイズは、トレーニングでは 100,000、検証セットとテスト セットでは 10,000 です。
各例の特徴は次のとおりです。 seq: {A、C、G、T} で構成される入力 DNA シーケンス。 label: 細菌クラスの名前。 seq_info: DNA 配列のソース、つまり、ゲノム名、NCBI アクセッション番号、およびサンプリング元の位置。ドメイン: バクテリアが分布内 (in) または OOD (ood) の場合
データセットの詳細は、論文の補足に記載されています。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/google-research/google-research/tree/master/genomics_ood
ソース コード:
tfds.structured.GenomicsOod
バージョン:
-
0.0.1
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットサイズ:
926.87 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- 機能構造:
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ドメイン | 文章 | ストリング | ||
ラベル | クラスラベル | int64 | ||
シーケンス | 文章 | ストリング | ||
seq_info | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('seq', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}