Visualización : Explore en Know Your Data
Descripción :
dSprites es un conjunto de datos de formas 2D generadas por procedimientos a partir de 6 factores latentes independientes de la realidad del terreno. Estos factores son el color , la forma , la escala , la rotación y las posiciones x e y de un sprite.
Todas las combinaciones posibles de estas latentes están presentes exactamente una vez, generando N = 737280 imágenes totales.
Valores de factores latentes
- Color blanco
- Forma: cuadrado, elipse, corazón.
- Escala: 6 valores espaciados linealmente en [0.5, 1]
- Orientación: 40 valores en [0, 2 pi]
- Posición X: 32 valores en [0, 1]
- Posición Y: 32 valores en [0, 1]
Variamos una latente a la vez (comenzando desde la Posición Y, luego la Posición X, etc.) y almacenamos secuencialmente las imágenes en un orden fijo. Por lo tanto, el orden a lo largo de la primera dimensión es fijo y le permite volver a mapear el valor de las latentes correspondientes a esa imagen.
Elegimos los valores latentes deliberadamente para tener los cambios de paso más pequeños y asegurarnos de que todas las salidas de píxeles fueran diferentes. No se agregó ningún ruido.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/deepmind/dsprites-dataset
Código fuente :
tfds.datasets.dsprites.Builder
Versiones :
-
2.0.0
(predeterminado): nueva API dividida ( https://tensorflow.org/datasets/splits ) -
2.1.0
: Sin notas de la versión.
-
Tamaño de la descarga :
26.73 MiB
Tamaño del conjunto de datos :
Unknown size
Auto-caché ( documentación ): Desconocido
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 737,280 |
- Estructura de características :
FeaturesDict({
'image': Image(shape=(64, 64, 1), dtype=uint8),
'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
'value_orientation': float32,
'value_scale': float32,
'value_shape': float32,
'value_x_position': float32,
'value_y_position': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
imagen | Imagen | (64, 64, 1) | uint8 | |
etiqueta_orientación | Etiqueta de clase | int64 | ||
etiqueta_escala | Etiqueta de clase | int64 | ||
etiqueta_forma | Etiqueta de clase | int64 | ||
etiqueta_x_posición | Etiqueta de clase | int64 | ||
label_y_position | Etiqueta de clase | int64 | ||
orientación de valores | Tensor | flotar32 | ||
valor_escala | Tensor | flotar32 | ||
valor_forma | Tensor | flotar32 | ||
valor_x_posición | Tensor | flotar32 | ||
valor_y_posición | Tensor | flotar32 |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
- Cita :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}