- 説明:
ProteinNet は、タンパク質構造の機械学習用に標準化されたデータ セットです。タンパク質配列、構造 (二次および三次)、複数の配列アラインメント (MSA)、位置固有のスコアリング マトリックス (PSSM)、および標準化されたトレーニング/検証/テスト分割を提供します。 ProteinNet は、最近解決されたが公開されていないタンパク質構造のブラインド予測を実行する 2 年ごとの CASP 評価に基づいて構築されており、計算方法論のフロンティアを押し進めるテスト セットを提供します。これは、CASP 7 から 12 (10 年間をカバー) にわたる一連のデータ セットとして編成されており、比較的データが乏しい体制およびデータが豊富な体制における新しい方法の評価を可能にする一連のデータ セット サイズを提供します。
ソース コード:
tfds.datasets.protein_net.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
進化的な | テンソル | (なし、21) | float32 | |
ID | 文章 | ストリング | ||
長さ | テンソル | int32 | ||
マスク | テンソル | (なし、) | ブール | |
主要な | シーケンス(クラスラベル) | (なし、) | int64 | |
三次 | テンソル | (なし、3) | float32 |
監視されたキー(
as_supervised
docを参照):('primary', 'tertiary')
図( tfds.show_examples ): サポートされていません。
引用:
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (デフォルト設定)
ダウンロードサイズ:
3.18 GiB
データセットサイズ:
2.53 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- 例( tfds.as_dataframe ):
protein_net/casp8
ダウンロードサイズ:
4.96 GiB
データセットサイズ:
3.55 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- 例( tfds.as_dataframe ):
protein_net/casp9
ダウンロードサイズ:
6.65 GiB
データセットサイズ:
4.54 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- 例( tfds.as_dataframe ):
protein_net/casp10
ダウンロードサイズ:
8.65 GiB
データセットサイズ:
5.57 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- 例( tfds.as_dataframe ):
protein_net/casp11
ダウンロードサイズ:
10.81 GiB
データセットサイズ:
6.72 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- 例( tfds.as_dataframe ):
protein_net/casp12
ダウンロードサイズ:
13.18 GiB
データセットサイズ:
8.05 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- 例( tfds.as_dataframe ):