dsprites

  • Descrizione :

dSprites è un set di dati di forme 2D generate proceduralmente da 6 fattori latenti indipendenti dalla realtà terrestre. Questi fattori sono colore , forma , scala , rotazione , posizioni xey di uno sprite.

Tutte le possibili combinazioni di questi latenti sono presenti esattamente una volta, generando N = 737280 immagini totali.

Valori dei fattori latenti

  • Colore bianco
  • Forma: quadrata, ellittica, cuore
  • Scala: 6 valori spaziati linearmente in [0,5, 1]
  • Orientamento: 40 valori in [0, 2 pi]
  • Posizione X: 32 valori in [0, 1]
  • Posizione Y: 32 valori in [0, 1]

Abbiamo variato un latente alla volta (iniziando dalla posizione Y, poi dalla posizione X, ecc.) e memorizzando sequenzialmente le immagini in ordine fisso. Quindi l'ordine lungo la prima dimensione è fisso e consente di risalire al valore dei latenti corrispondente a quell'immagine.

Abbiamo scelto deliberatamente i valori latenti per avere i più piccoli cambiamenti di gradino garantendo al tempo stesso che tutti gli output dei pixel fossero diversi. Non è stato aggiunto alcun rumore.

Diviso Esempi
'train' 737.280
  • Struttura delle caratteristiche :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Immagine Immagine (64, 64, 1) uint8
orientamento_etichetta ClassLabel int64
etichetta_scala ClassLabel int64
etichetta_forma ClassLabel int64
etichetta_x_posizione ClassLabel int64
etichetta_y_posizione ClassLabel int64
orientamento_valore Tensore float32
valore_scala Tensore float32
valore_forma Tensore float32
valore_x_posizione Tensore float32
valore_y_posizione Tensore float32

Visualizzazione

  • Citazione :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}