dsprite

  • Sự miêu tả :

dSprites là tập dữ liệu gồm các hình dạng 2D được tạo theo thủ tục từ 6 yếu tố tiềm ẩn độc lập với sự thật cơ bản. Các yếu tố này là màu sắc , hình dạng , tỷ lệ , góc xoay , vị trí xy của một sprite.

Tất cả các kết hợp có thể có của các tiềm ẩn này xuất hiện chính xác một lần, tạo ra tổng số N = 737280 hình ảnh.

Giá trị yếu tố tiềm ẩn

  • Màu trắng
  • Hình dạng: hình vuông, hình elip, trái tim
  • Tỷ lệ: 6 giá trị cách đều nhau trong [0,5, 1]
  • Định hướng: 40 giá trị trong [0, 2 pi]
  • Vị trí X: 32 giá trị trong [0, 1]
  • Vị trí Y: 32 giá trị trong [0, 1]

Chúng tôi thay đổi từng hình ảnh tiềm ẩn (bắt đầu từ Vị trí Y, sau đó là Vị trí X, v.v.) và lưu trữ tuần tự các hình ảnh theo thứ tự cố định. Do đó, thứ tự dọc theo chiều thứ nhất là cố định và cho phép bạn ánh xạ trở lại giá trị tiềm ẩn tương ứng với hình ảnh đó.

Chúng tôi đã chọn các giá trị tiềm ẩn một cách có chủ ý để có những thay đổi từng bước nhỏ nhất trong khi vẫn đảm bảo rằng tất cả các kết quả đầu ra của pixel đều khác nhau. Không có tiếng ồn được thêm vào.

Tách ra Ví dụ
'train' 737.280
  • Cấu trúc tính năng :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
hình ảnh Hình ảnh (64, 64, 1) uint8
nhãn_định hướng Nhãn lớp int64
nhãn_scale Nhãn lớp int64
nhãn_hình dạng Nhãn lớp int64
nhãn_x_position Nhãn lớp int64
nhãn_y_position Nhãn lớp int64
giá trị_định hướng Tenxơ phao32
giá trị_scale Tenxơ phao32
giá trị_hình dạng Tenxơ phao32
giá trị_x_vị trí Tenxơ phao32
giá trị_y_vị trí Tenxơ phao32

Hình dung

  • Trích dẫn :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}