- 설명 :
ProteinNet은 단백질 구조의 기계 학습을 위한 표준화된 데이터 세트입니다. 단백질 서열, 구조(2차 및 3차), 다중 서열 정렬(MSA), 위치별 점수 매트릭스(PSSM) 및 표준화된 교육/검증/테스트 분할을 제공합니다. ProteinNet은 최근에 해결되었지만 공개적으로 사용할 수 없는 단백질 구조에 대한 블라인드 예측을 수행하는 격년 CASP 평가를 기반으로 하여 전산 방법론의 한계를 뛰어넘는 테스트 세트를 제공합니다. CASP 7에서 12(10년 기간 포함)에 이르는 일련의 데이터 세트로 구성되어 상대적으로 데이터가 부족하고 데이터가 풍부한 체제에서 새로운 방법을 평가할 수 있는 다양한 데이터 세트 크기를 제공합니다.
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
자동 캐시 ( 문서 ): 아니요
기능 구조 :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
진화 | 텐서 | (없음, 21) | float32 | |
ID | 텍스트 | 끈 | ||
길이 | 텐서 | int32 | ||
마스크 | 텐서 | (없음,) | 부울 | |
일 순위 | 시퀀스(클래스 레이블) | (없음,) | int64 | |
제삼기 | 텐서 | (없음, 3) | float32 |
감독 키 (
as_supervised
문서 참조):('primary', 'tertiary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7(기본 구성)
다운로드 크기 :
3.18 GiB
데이터세트 크기 :
2.53 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- 예 ( tfds.as_dataframe ):
protein_net/casp8
다운로드 크기 :
4.96 GiB
데이터세트 크기 :
3.55 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- 예 ( tfds.as_dataframe ):
protein_net/casp9
다운로드 크기 :
6.65 GiB
데이터세트 크기 :
4.54 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- 예 ( tfds.as_dataframe ):
protein_net/casp10
다운로드 크기 :
8.65 GiB
데이터세트 크기 :
5.57 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- 예 ( tfds.as_dataframe ):
protein_net/casp11
다운로드 크기 :
10.81 GiB
데이터세트 크기 :
6.72 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- 예 ( tfds.as_dataframe ):
protein_net/casp12
다운로드 크기 :
13.18 GiB
데이터세트 크기 :
8.05 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- 예 ( tfds.as_dataframe ):