s3o4d

  • Sự miêu tả :

Tập dữ liệu được mô tả lần đầu tiên trong phần "Đối tượng 3D Stanford" của bài báo Giải quyết bằng cách khuếch tán không gian con . Dữ liệu bao gồm 100.000 kết xuất của mỗi đối tượng Bunny và Dragon từ Kho lưu trữ quét 3D của Stanford . Nhiều đồ vật khác có thể được thêm vào trong tương lai, nhưng chỉ có Thỏ và Rồng được sử dụng trong bài báo. Mỗi đối tượng được hiển thị với độ sáng được lấy mẫu thống nhất từ ​​một điểm trên hình cầu 2 và xoay 3D được lấy mẫu thống nhất. Các trạng thái tiềm ẩn thực sự được cung cấp dưới dạng mảng NumPy cùng với hình ảnh. Ánh sáng được cung cấp dưới dạng vectơ 3 chiều với định mức đơn vị, trong khi phép quay được cung cấp cả dưới dạng ma trận bậc bốn và ma trận trực giao 3x3.

Có nhiều điểm tương đồng giữa S3O4D và các bộ dữ liệu điểm chuẩn ML hiện có như NORB , Ghế 3D , Hình dạng 3D và nhiều bộ dữ liệu khác, bao gồm cả kết xuất của một tập hợp đối tượng trong các điều kiện chiếu sáng và tư thế khác nhau. Tuy nhiên, không có bộ dữ liệu hiện có nào bao gồm đầy đủ các phép quay trong 3D - hầu hết chỉ bao gồm một tập hợp con các thay đổi về độ cao và góc phương vị. Hình ảnh S3O4D được lấy mẫu đồng nhất và độc lập với toàn bộ không gian quay và chiếu sáng, nghĩa là tập dữ liệu chứa các vật thể lộn ngược và được chiếu sáng từ phía sau hoặc bên dưới. Chúng tôi tin rằng điều này làm cho S3O4D đặc biệt phù hợp để nghiên cứu về các mô hình tổng quát trong đó không gian tiềm ẩn có cấu trúc liên kết không tầm thường, cũng như cho các phương pháp học đa dạng chung trong đó độ cong của đa tạp là quan trọng.

Tách ra Ví dụ
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Cấu trúc tính năng :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
chiếu sáng Tenxơ (3,) phao32
hình ảnh Hình ảnh (256, 256, 3) uint8
nhãn Nhãn lớp int64
tư thế_mat Tenxơ (3, 3) phao32
tư thế_quat Tenxơ (4,) phao32

Hình dung

  • Trích dẫn :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}