- Descripción :
El conjunto de datos se describió por primera vez en la sección "Objetos 3D de Stanford" del artículo Disentangling by Subspace Diffusion . Los datos constan de 100.000 representaciones de cada uno de los objetos Bunny y Dragon del Stanford 3D Scanning Repository . Es posible que se agreguen más objetos en el futuro, pero en el periódico solo se utilizan el Conejito y el Dragón. Cada objeto se representa con una iluminación muestreada uniformemente desde un punto de la 2 esfera y una rotación 3D muestreada uniformemente. Los verdaderos estados latentes se proporcionan como matrices NumPy junto con las imágenes. La iluminación se proporciona como un vector de 3 con norma unitaria, mientras que la rotación se proporciona como un cuaternión y una matriz ortogonal de 3x3.
Existen muchas similitudes entre S3O4D y los conjuntos de datos de referencia de ML existentes como NORB , 3D Chairs , 3D Shapes y muchos otros, que también incluyen representaciones de un conjunto de objetos en diferentes poses y condiciones de iluminación. Sin embargo, ninguno de estos conjuntos de datos existentes incluye la variedad completa de rotaciones en 3D; la mayoría incluye solo un subconjunto de cambios en elevación y azimut. Las imágenes S3O4D se muestrean de manera uniforme e independiente del espacio completo de rotaciones e iluminaciones, lo que significa que el conjunto de datos contiene objetos que están al revés e iluminados desde atrás o desde abajo. Creemos que esto hace que S3O4D sea especialmente adecuado para la investigación de modelos generativos donde el espacio latente tiene una topología no trivial, así como para métodos generales de aprendizaje de variedades donde la curvatura de la variedad es importante.
Documentación adicional : Explorar en artículos con código
Página de inicio : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Código fuente :
tfds.datasets.s3o4d.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
911.68 MiB
Tamaño del conjunto de datos :
1.01 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'bunny_test' | 20.000 |
'bunny_train' | 80.000 |
'dragon_test' | 20.000 |
'dragon_train' | 80.000 |
- Estructura de características :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
iluminación | Tensor | (3,) | flotador32 | |
imagen | Imagen | (256, 256, 3) | uint8 | |
etiqueta | Etiqueta de clase | int64 | ||
pose_mat | Tensor | (3, 3) | flotador32 | |
pose_quat | Tensor | (4,) | flotador32 |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
- Citación :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}