s3o4d

  • Descrizione :

Il set di dati è stato descritto per la prima volta nella sezione "Stanford 3D Objects" del documento Disentangling by Subspace Diffusion . I dati sono costituiti da 100.000 rendering ciascuno degli oggetti Bunny e Dragon dal repository di scansione 3D di Stanford . Altri oggetti potrebbero essere aggiunti in futuro, ma nel documento vengono utilizzati solo il coniglietto e il drago. Ogni oggetto viene renderizzato con un'illuminazione campionata uniformemente da un punto sulla 2-sfera e una rotazione 3D campionata uniformemente. I veri stati latenti vengono forniti come array NumPy insieme alle immagini. L'illuminazione è data come un trivettore con norma unitaria, mentre la rotazione è data sia come quaternione che come matrice ortogonale 3x3.

Esistono molte somiglianze tra S3O4D e i set di dati di benchmark ML esistenti come NORB , 3D Chairs , 3D Shapes e molti altri, che includono anche rendering di un insieme di oggetti in diverse pose e condizioni di illuminazione. Tuttavia, nessuno di questi set di dati esistenti include l' intera gamma di rotazioni in 3D: la maggior parte include solo un sottoinsieme di modifiche all'elevazione e all'azimut. Le immagini S3O4D vengono campionate in modo uniforme e indipendente dall'intero spazio di rotazioni e illuminazioni, il che significa che il set di dati contiene oggetti capovolti e illuminati da dietro o da sotto. Riteniamo che ciò renda S3O4D particolarmente adatto per la ricerca su modelli generativi in ​​cui lo spazio latente ha una topologia non banale, nonché per metodi generali di apprendimento delle varietà in cui la curvatura della varietà è importante.

Diviso Esempi
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
illuminazione Tensore (3,) float32
Immagine Immagine (256, 256, 3) uint8
etichetta ClassLabel int64
pose_mat Tensore (3, 3) float32
posa_quat Tensore (4,) float32

Visualizzazione

  • Citazione :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}