s3o4d

  • Description :

L'ensemble de données décrit pour la première fois dans la section « Objets 3D de Stanford » de l'article Disentangling by Subspace Diffusion . Les données comprennent 100 000 rendus de chacun des objets Bunny et Dragon du référentiel de numérisation 3D de Stanford . D'autres objets pourraient être ajoutés à l'avenir, mais seuls le lapin et le dragon sont utilisés dans le document. Chaque objet est rendu avec une illumination uniformément échantillonnée à partir d'un point sur les 2 sphères et une rotation 3D uniformément échantillonnée. Les véritables états latents sont fournis sous forme de tableaux NumPy avec les images. L'éclairage est donné sous forme de 3 vecteurs avec norme unitaire, tandis que la rotation est fournie à la fois sous forme de quaternion et de matrice orthogonale 3x3.

Il existe de nombreuses similitudes entre S3O4D et les ensembles de données de référence ML existants tels que NORB , 3D Chairs , 3D Shapes et bien d'autres, qui incluent également des rendus d'un ensemble d'objets dans différentes conditions de pose et d'éclairage. Cependant, aucun de ces ensembles de données existants n’inclut la diversité complète des rotations en 3D – la plupart n’incluent qu’un sous-ensemble des changements d’élévation et d’azimut. Les images S3O4D sont échantillonnées de manière uniforme et indépendante de tout l’espace des rotations et des illuminations, ce qui signifie que l’ensemble de données contient des objets à l’envers et éclairés par derrière ou par dessous. Nous pensons que cela rend S3O4D particulièrement adapté à la recherche sur des modèles génératifs où l'espace latent a une topologie non triviale, ainsi qu'aux méthodes générales d'apprentissage de variétés où la courbure de la variété est importante.

Diviser Exemples
'bunny_test' 20 000
'bunny_train' 80 000
'dragon_test' 20 000
'dragon_train' 80 000
  • Structure des fonctionnalités :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
éclairage Tenseur (3,) flotteur32
image Image (256, 256, 3) uint8
étiquette Étiquette de classe int64
pose_mat Tenseur (3, 3) flotteur32
pose_quat Tenseur (4,) flotteur32

Visualisation

  • Citation :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}