s3o4d

El conjunto de datos se describió por primera vez en la sección "Objetos 3D de Stanford" del artículo Disentangling by Subspace Diffusion . Los datos consisten en 100.000 representaciones de cada uno de los objetos Bunny y Dragon del repositorio de escaneo 3D de Stanford . Es posible que se agreguen más objetos en el futuro, pero solo Bunny y Dragon se usan en el documento. Cada objeto se renderiza con una iluminación muestreada uniformemente desde un punto en la esfera 2 y una rotación 3D muestreada uniformemente. Los verdaderos estados latentes se proporcionan como matrices NumPy junto con las imágenes. La iluminación se proporciona como un vector de 3 con norma unitaria, mientras que la rotación se proporciona tanto como un cuaternión como una matriz ortogonal de 3x3.

Hay muchas similitudes entre S3O4D y los conjuntos de datos de referencia de ML existentes como NORB , 3D Chairs , 3D Shapes y muchos otros, que también incluyen representaciones de un conjunto de objetos en diferentes poses y condiciones de iluminación. Sin embargo, ninguno de estos conjuntos de datos existentes incluye la variedad completa de rotaciones en 3D; la mayoría incluye solo un subconjunto de cambios en la elevación y el acimut. Las imágenes S3O4D se muestrean de manera uniforme e independiente del espacio completo de rotaciones e iluminaciones, lo que significa que el conjunto de datos contiene objetos que están al revés e iluminados por detrás o por debajo. Creemos que esto hace que S3O4D sea especialmente adecuado para la investigación de modelos generativos donde el espacio latente tiene una topología no trivial, así como para métodos generales de aprendizaje de variedades donde la curvatura de la variedad es importante.

Separar Ejemplos
'bunny_test' 20,000
'bunny_train' 80.000
'dragon_test' 20,000
'dragon_train' 80.000
  • Estructura de características :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
iluminación Tensor (3,) flotar32
imagen Imagen (256, 256, 3) uint8
etiqueta Etiqueta de clase int64
pose_mat Tensor (3, 3) flotar32
pose_quat Tensor (4,) flotar32

Visualización

  • Cita :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}