- Sự miêu tả :
Tập dữ liệu được mô tả lần đầu tiên trong phần "Đối tượng 3D Stanford" của bài báo Giải quyết bằng cách khuếch tán không gian con . Dữ liệu bao gồm 100.000 kết xuất của mỗi đối tượng Bunny và Dragon từ Kho lưu trữ quét 3D của Stanford . Nhiều đồ vật khác có thể được thêm vào trong tương lai, nhưng chỉ có Thỏ và Rồng được sử dụng trong bài báo. Mỗi đối tượng được hiển thị với độ sáng được lấy mẫu thống nhất từ một điểm trên hình cầu 2 và xoay 3D được lấy mẫu thống nhất. Các trạng thái tiềm ẩn thực sự được cung cấp dưới dạng mảng NumPy cùng với hình ảnh. Ánh sáng được cung cấp dưới dạng vectơ 3 chiều với định mức đơn vị, trong khi phép quay được cung cấp cả dưới dạng ma trận bậc bốn và ma trận trực giao 3x3.
Có nhiều điểm tương đồng giữa S3O4D và các bộ dữ liệu điểm chuẩn ML hiện có như NORB , Ghế 3D , Hình dạng 3D và nhiều bộ dữ liệu khác, bao gồm cả kết xuất của một tập hợp đối tượng trong các điều kiện chiếu sáng và tư thế khác nhau. Tuy nhiên, không có bộ dữ liệu hiện có nào bao gồm đầy đủ các phép quay trong 3D - hầu hết chỉ bao gồm một tập hợp con các thay đổi về độ cao và góc phương vị. Hình ảnh S3O4D được lấy mẫu đồng nhất và độc lập với toàn bộ không gian quay và chiếu sáng, nghĩa là tập dữ liệu chứa các vật thể lộn ngược và được chiếu sáng từ phía sau hoặc bên dưới. Chúng tôi tin rằng điều này làm cho S3O4D đặc biệt phù hợp để nghiên cứu về các mô hình tổng quát trong đó không gian tiềm ẩn có cấu trúc liên kết không tầm thường, cũng như cho các phương pháp học đa dạng chung trong đó độ cong của đa tạp là quan trọng.
Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Mã nguồn :
tfds.datasets.s3o4d.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
911.68 MiB
Kích thước tập dữ liệu :
1.01 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'bunny_test' | 20.000 |
'bunny_train' | 80.000 |
'dragon_test' | 20.000 |
'dragon_train' | 80.000 |
- Cấu trúc tính năng :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chiếu sáng | Tenxơ | (3,) | phao32 | |
hình ảnh | Hình ảnh | (256, 256, 3) | uint8 | |
nhãn | Nhãn lớp | int64 | ||
tư thế_mat | Tenxơ | (3, 3) | phao32 | |
tư thế_quat | Tenxơ | (4,) | phao32 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}