- Description :
L'ensemble de données décrit pour la première fois dans la section « Objets 3D de Stanford » de l'article Disentangling by Subspace Diffusion . Les données comprennent 100 000 rendus de chacun des objets Bunny et Dragon du référentiel de numérisation 3D de Stanford . D'autres objets pourraient être ajoutés à l'avenir, mais seuls le lapin et le dragon sont utilisés dans le document. Chaque objet est rendu avec une illumination uniformément échantillonnée à partir d'un point sur les 2 sphères et une rotation 3D uniformément échantillonnée. Les véritables états latents sont fournis sous forme de tableaux NumPy avec les images. L'éclairage est donné sous forme de 3 vecteurs avec norme unitaire, tandis que la rotation est fournie à la fois sous forme de quaternion et de matrice orthogonale 3x3.
Il existe de nombreuses similitudes entre S3O4D et les ensembles de données de référence ML existants tels que NORB , 3D Chairs , 3D Shapes et bien d'autres, qui incluent également des rendus d'un ensemble d'objets dans différentes conditions de pose et d'éclairage. Cependant, aucun de ces ensembles de données existants n’inclut la diversité complète des rotations en 3D – la plupart n’incluent qu’un sous-ensemble des changements d’élévation et d’azimut. Les images S3O4D sont échantillonnées de manière uniforme et indépendante de tout l’espace des rotations et des illuminations, ce qui signifie que l’ensemble de données contient des objets à l’envers et éclairés par derrière ou par dessous. Nous pensons que cela rend S3O4D particulièrement adapté à la recherche sur des modèles génératifs où l'espace latent a une topologie non triviale, ainsi qu'aux méthodes générales d'apprentissage de variétés où la courbure de la variété est importante.
Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Code source :
tfds.datasets.s3o4d.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
911.68 MiB
Taille du jeu de données :
1.01 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'bunny_test' | 20 000 |
'bunny_train' | 80 000 |
'dragon_test' | 20 000 |
'dragon_train' | 80 000 |
- Structure des fonctionnalités :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
éclairage | Tenseur | (3,) | flotteur32 | |
image | Image | (256, 256, 3) | uint8 | |
étiquette | Étiquette de classe | int64 | ||
pose_mat | Tenseur | (3, 3) | flotteur32 | |
pose_quat | Tenseur | (4,) | flotteur32 |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) :
- Exemples ( tfds.as_dataframe ) :
- Citation :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}