dsprites

dSprites é um conjunto de dados de formas 2D geradas processualmente a partir de 6 fatores latentes independentes da verdade fundamental. Esses fatores são cor , forma , escala , rotação , posições x e y de um sprite.

Todas as combinações possíveis desses latentes estão presentes exatamente uma vez, gerando N = 737280 imagens no total.

Valores de fator latente

  • Cor branca
  • Forma: quadrado, elipse, coração
  • Escala: 6 valores espaçados linearmente em [0,5, 1]
  • Orientação: 40 valores em [0, 2 pi]
  • Posição X: 32 valores em [0, 1]
  • Posição Y: 32 valores em [0, 1]

Variamos um latente de cada vez (começando na Posição Y, depois na Posição X, etc.) e armazenamos sequencialmente as imagens em ordem fixa. Portanto, a ordem ao longo da primeira dimensão é fixa e permite que você mapeie de volta para o valor dos latentes correspondentes a essa imagem.

Escolhemos os valores latentes deliberadamente para ter as menores alterações de passo, garantindo que todas as saídas de pixel fossem diferentes. Nenhum ruído foi adicionado.

Dividir Exemplos
'train' 737.280
  • Estrutura de recursos :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
imagem Imagem (64, 64, 1) uint8
label_orientation ClassLabel int64
label_scale ClassLabel int64
label_shape ClassLabel int64
label_x_position ClassLabel int64
label_y_position ClassLabel int64
value_orientation tensor float32
valor_escala tensor float32
valor_forma tensor float32
value_x_position tensor float32
value_y_position tensor float32

Visualização

  • Citação :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}