protein_net

  • 설명 :

ProteinNet은 단백질 구조의 기계 학습을 위한 표준화된 데이터 세트입니다. 단백질 서열, 구조(2차 및 3차), 다중 서열 정렬(MSA), 위치별 점수 매트릭스(PSSM) 및 표준화된 교육/검증/테스트 분할을 제공합니다. ProteinNet은 최근에 해결되었지만 공개적으로 사용할 수 없는 단백질 구조에 대한 블라인드 예측을 수행하는 격년 CASP 평가를 기반으로 하여 전산 방법론의 한계를 뛰어넘는 테스트 세트를 제공합니다. CASP 7에서 12(10년 기간 포함)에 이르는 일련의 데이터 세트로 구성되어 상대적으로 데이터가 부족하고 데이터가 풍부한 체제에서 새로운 방법을 평가할 수 있는 다양한 데이터 세트 크기를 제공합니다.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
진화 텐서 (없음, 21) float32
ID 텍스트
길이 텐서 int32
마스크 텐서 (없음,) 부울
일 순위 시퀀스(클래스 레이블) (없음,) int64
제삼기 텐서 (없음, 3) float32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7(기본 구성)

  • 다운로드 크기 : 3.18 GiB

  • 데이터세트 크기 : 2.53 GiB

  • 분할 :

나뉘다
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

protein_net/casp8

  • 다운로드 크기 : 4.96 GiB

  • 데이터세트 크기 : 3.55 GiB

  • 분할 :

나뉘다
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

protein_net/casp9

  • 다운로드 크기 : 6.65 GiB

  • 데이터세트 크기 : 4.54 GiB

  • 분할 :

나뉘다
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net/casp10

  • 다운로드 크기 : 8.65 GiB

  • 데이터세트 크기 : 5.57 GiB

  • 분할 :

나뉘다
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

protein_net/casp11

  • 다운로드 크기 : 10.81 GiB

  • 데이터세트 크기 : 6.72 GiB

  • 분할 :

나뉘다
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • 다운로드 크기 : 13.18 GiB

  • 데이터세트 크기 : 8.05 GiB

  • 분할 :

나뉘다
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224