- Mô tả :
ProteinNet là một bộ dữ liệu được tiêu chuẩn hóa để máy học cấu trúc protein. Nó cung cấp các trình tự protein, cấu trúc (thứ cấp và thứ ba), sắp xếp nhiều trình tự (MSA), ma trận tính điểm cụ thể theo vị trí (PSSM) và phân tách đào tạo/xác nhận/kiểm tra được tiêu chuẩn hóa. ProteinNet xây dựng dựa trên các đánh giá CASP hai năm một lần, thực hiện các dự đoán mù quáng về các cấu trúc protein đã được giải quyết gần đây nhưng không có sẵn công khai, để cung cấp các bộ thử nghiệm thúc đẩy các giới hạn của phương pháp tính toán. Nó được tổ chức dưới dạng một loạt các tập dữ liệu, kéo dài từ CASP 7 đến 12 (bao gồm khoảng thời gian 10 năm), để cung cấp một loạt các kích thước tập dữ liệu cho phép đánh giá các phương pháp mới trong chế độ dữ liệu tương đối nghèo và dữ liệu phong phú.
Trang chủ : https://github.com/aqlaboratory/proteinnet
Mã nguồn :
tfds.datasets.protein_net.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tiến hóa | tenxơ | (Không có, 21) | phao32 | |
Tôi | Chữ | sợi dây | ||
chiều dài | tenxơ | int32 | ||
mặt nạ | tenxơ | (Không có,) | bool | |
sơ đẳng | Trình tự (Nhãn lớp) | (Không có,) | int64 | |
cấp ba | tenxơ | (Không, 3) | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):('primary', 'tertiary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (cấu hình mặc định)
Kích thước tải xuống :
3.18 GiB
Kích thước tập dữ liệu :
2.53 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- Ví dụ ( tfds.as_dataframe ):
protein_net/casp8
Kích thước tải xuống :
4.96 GiB
Kích thước tập dữ liệu :
3.55 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17.970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- Ví dụ ( tfds.as_dataframe ):
protein_net/casp9
Kích thước tải xuống :
6.65 GiB
Kích thước tập dữ liệu :
4.54 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- Ví dụ ( tfds.as_dataframe ):
protein_net/casp10
Kích thước tải xuống :
8.65 GiB
Kích thước tập dữ liệu :
5.57 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- Ví dụ ( tfds.as_dataframe ):
protein_net/casp11
Kích thước tải xuống :
10.81 GiB
Kích thước tập dữ liệu :
6.72 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- Ví dụ ( tfds.as_dataframe ):
protein_net/casp12
Kích thước tải xuống :
13.18 GiB
Kích thước tập dữ liệu :
8.05 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49.600 |
'train_95' | 50,914 |
'validation' | 224 |
- Ví dụ ( tfds.as_dataframe ):