- Descrizione :
Il set di dati descritto per la prima volta nella sezione "Stanford 3D Objects" del documento Disentangling by Subspace Diffusion . I dati sono costituiti da 100.000 rendering ciascuno degli oggetti Bunny e Dragon dallo Stanford 3D Scanning Repository . Altri oggetti potrebbero essere aggiunti in futuro, ma nella carta vengono utilizzati solo il coniglietto e il drago. Ogni oggetto viene renderizzato con un'illuminazione campionata uniformemente da un punto sulla 2-sfera e una rotazione 3D campionata uniformemente. I veri stati latenti vengono forniti come array NumPy insieme alle immagini. L'illuminazione è data come un 3-vettore con norma unitaria, mentre la rotazione è fornita sia come quaternione che come matrice ortogonale 3x3.
Esistono molte somiglianze tra S3O4D e i set di dati di benchmark ML esistenti come NORB , 3D Chairs , 3D Shapes e molti altri, che includono anche rendering di un insieme di oggetti in diverse condizioni di posa e illuminazione. Tuttavia, nessuno di questi set di dati esistenti include l' intero collettore di rotazioni in 3D, la maggior parte include solo un sottoinsieme di modifiche all'elevazione e all'azimut. Le immagini S3O4D vengono campionate in modo uniforme e indipendente dall'intero spazio di rotazioni e illuminazioni, il che significa che il set di dati contiene oggetti capovolti e illuminati da dietro o da sotto. Riteniamo che ciò renda S3O4D particolarmente adatto per la ricerca su modelli generativi in cui lo spazio latente ha una topologia non banale, nonché per metodi di apprendimento di varietà generali in cui la curvatura della varietà è importante.
Codice sorgente :
tfds.image.s3o4d.S3O4D
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
911.68 MiB
Dimensione del set di dati :
1.01 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'bunny_test' | 20.000 |
'bunny_train' | 80.000 |
'dragon_test' | 20.000 |
'dragon_train' | 80.000 |
- Caratteristiche :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=tf.float32),
'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Citazione :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):