- Descripción :
dSprites es un conjunto de datos de formas 2D generadas procedimentalmente a partir de 6 factores latentes independientes de la verdad fundamental. Estos factores son el color , la forma , la escala , la rotación y las posiciones xey de un sprite.
Todas las combinaciones posibles de estos latentes están presentes exactamente una vez, generando N = 737280 imágenes en total.
Valores de factores latentes
- Color blanco
- Forma: cuadrado, elipse, corazón
- Escala: 6 valores espaciados linealmente en [0,5, 1]
- Orientación: 40 valores en [0, 2 pi]
- Posición X: 32 valores en [0, 1]
- Posición Y: 32 valores en [0, 1]
Variamos una latente a la vez (comenzando desde la Posición Y, luego la Posición X, etc.) y almacenamos secuencialmente las imágenes en un orden fijo. Por lo tanto, el orden a lo largo de la primera dimensión es fijo y le permite mapear el valor de las latentes correspondientes a esa imagen.
Elegimos los valores latentes deliberadamente para tener los cambios de paso más pequeños y al mismo tiempo asegurarnos de que todas las salidas de píxeles fueran diferentes. No se agregó ningún ruido.
Documentación adicional : Explorar en artículos con código
Página de inicio : https://github.com/deepmind/dsprites-dataset
Código fuente :
tfds.datasets.dsprites.Builder
Versiones :
-
2.0.0
(predeterminado): Nueva API dividida ( https://tensorflow.org/datasets/splits ) -
2.1.0
: Sin notas de versión.
-
Tamaño de descarga :
26.73 MiB
Tamaño del conjunto de datos :
Unknown size
Almacenamiento en caché automático ( documentación ): Desconocido
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 737.280 |
- Estructura de características :
FeaturesDict({
'image': Image(shape=(64, 64, 1), dtype=uint8),
'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
'value_orientation': float32,
'value_scale': float32,
'value_shape': float32,
'value_x_position': float32,
'value_y_position': float32,
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
imagen | Imagen | (64, 64, 1) | uint8 | |
orientación_etiqueta | Etiqueta de clase | int64 | ||
escala_etiqueta | Etiqueta de clase | int64 | ||
forma_etiqueta | Etiqueta de clase | int64 | ||
etiqueta_x_posicion | Etiqueta de clase | int64 | ||
etiqueta_y_posicion | Etiqueta de clase | int64 | ||
orientación de valores | Tensor | flotador32 | ||
escala_valor | Tensor | flotador32 | ||
valor_forma | Tensor | flotador32 | ||
valor_x_posicion | Tensor | flotador32 | ||
valor_y_posicion | Tensor | flotador32 |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
- Citación :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}