ゲノミクス_ood

  • 説明:

ゲノム シーケンスに基づく細菌の識別は、病気の早期発見の約束を保持していますが、トレーニング データに存在しなかった新しい細菌から分布外 (OOD) ゲノム シーケンスの信頼性の低い予測を出力できるモデルが必要です。

OOD 検出のためのゲノミクス データセットを紹介します。これにより、他の研究者はこの重要な問題の進捗状況をベンチマークできます。新しい細菌クラスは、何年にもわたって徐々に発見されています。年ごとにクラスをグループ化することは、分布内および OOD の例を模倣する自然な方法です。

このデータセットには、2011 年以前に分布内クラスとして発見された 10 の細菌クラス、検証用の OOD として 2011 年から 2016 年の間に発見された 60 の細菌クラス、およびテスト用の OOD として 2016 年以降に発見された別の 60 の異なる細菌クラスからサンプリングされたゲノム配列が含まれています。合計で 130 の細菌クラス。配布クラスにはトレーニング、検証、およびテスト データが提供され、OOD クラスには検証およびテスト データが提供されることに注意してください。その性質上、OOD データはトレーニング時に利用できません。

ゲノム配列は 250 の長さで、{A、C、G、T} の文字で構成されています。各クラスのサンプル サイズは、トレーニングでは 100,000、検証セットとテスト セットでは 10,000 です。

各例の特徴は次のとおりです。 seq: {A、C、G、T} で構成される入力 DNA シーケンス。 label: 細菌クラスの名前。 seq_info: DNA 配列のソース、つまり、ゲノム名、NCBI アクセッション番号、およびサンプリング元の位置。ドメイン: バクテリアが分布内 (in) または OOD (ood) の場合

データセットの詳細は、論文の補足に記載されています。

スプリット
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • 機能構造:
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ドメイン文章ストリング
ラベルクラスラベルint64
シーケンス文章ストリング
seq_info文章ストリング
  • 引用
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}