s3o4d

  • Descripción :

El conjunto de datos se describió por primera vez en la sección "Objetos 3D de Stanford" del artículo Disentangling by Subspace Diffusion . Los datos constan de 100.000 representaciones de cada uno de los objetos Bunny y Dragon del Stanford 3D Scanning Repository . Es posible que se agreguen más objetos en el futuro, pero en el periódico solo se utilizan el Conejito y el Dragón. Cada objeto se representa con una iluminación muestreada uniformemente desde un punto de la 2 esfera y una rotación 3D muestreada uniformemente. Los verdaderos estados latentes se proporcionan como matrices NumPy junto con las imágenes. La iluminación se proporciona como un vector de 3 con norma unitaria, mientras que la rotación se proporciona como un cuaternión y una matriz ortogonal de 3x3.

Existen muchas similitudes entre S3O4D y los conjuntos de datos de referencia de ML existentes como NORB , 3D Chairs , 3D Shapes y muchos otros, que también incluyen representaciones de un conjunto de objetos en diferentes poses y condiciones de iluminación. Sin embargo, ninguno de estos conjuntos de datos existentes incluye la variedad completa de rotaciones en 3D; la mayoría incluye solo un subconjunto de cambios en elevación y azimut. Las imágenes S3O4D se muestrean de manera uniforme e independiente del espacio completo de rotaciones e iluminaciones, lo que significa que el conjunto de datos contiene objetos que están al revés e iluminados desde atrás o desde abajo. Creemos que esto hace que S3O4D sea especialmente adecuado para la investigación de modelos generativos donde el espacio latente tiene una topología no trivial, así como para métodos generales de aprendizaje de variedades donde la curvatura de la variedad es importante.

Dividir Ejemplos
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Estructura de características :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
iluminación Tensor (3,) flotador32
imagen Imagen (256, 256, 3) uint8
etiqueta Etiqueta de clase int64
pose_mat Tensor (3, 3) flotador32
pose_quat Tensor (4,) flotador32

Visualización

  • Citación :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}