- Tanım :
Veri seti ilk olarak Disentangling by Subspace Diffusion makalesinin "Stanford 3D Objects" bölümünde açıklanmıştır. Veriler , Stanford 3D Tarama Havuzundaki Bunny ve Dragon nesnelerinin her birinin 100.000 görselinden oluşuyor. Gelecekte daha fazla nesne eklenebilir ancak yazıda yalnızca Tavşan ve Ejderha kullanılmıştır. Her nesne, 2-küre üzerindeki bir noktadan eşit şekilde örneklenmiş bir aydınlatma ve eşit şekilde örneklenmiş bir 3D döndürme ile oluşturulur. Gerçek gizli durumlar, görüntülerle birlikte NumPy dizileri olarak sağlanır. Aydınlatma birim normlu 3-vektör olarak verilirken, dönme hem kuaterniyon hem de 3x3 ortogonal matris olarak sağlanmaktadır.
S3O4D ile NORB , 3D Sandalyeler , 3D Şekiller ve diğerleri gibi mevcut ML kıyaslama veri kümeleri arasında pek çok benzerlik vardır; bunlar aynı zamanda bir dizi nesnenin farklı poz ve aydınlatma koşulları altında görüntülenmesini de içerir. Bununla birlikte, mevcut veri kümelerinin hiçbiri 3B'deki dönüşlerin tam manifoldunu içermiyor; çoğu yalnızca yükseklik ve azimuttaki değişikliklerin bir alt kümesini içeriyor. S3O4D görüntüleri, tüm döndürme ve aydınlatma alanından eşit ve bağımsız olarak örneklenir; bu, veri kümesinin baş aşağı olan ve arkadan veya alttan aydınlatılan nesneler içerdiği anlamına gelir. Bunun S3O4D'yi, gizli uzayın önemsiz olmayan bir topolojiye sahip olduğu üretken modeller üzerindeki araştırmalara ve ayrıca manifold eğriliğinin önemli olduğu genel manifold öğrenme yöntemlerine yönelik araştırmalar için benzersiz bir şekilde uygun hale getirdiğine inanıyoruz.
Kaynak kodu :
tfds.datasets.s3o4d.Builder
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
911.68 MiB
Veri kümesi boyutu :
1.01 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'bunny_test' | 20.000 |
'bunny_train' | 80.000 |
'dragon_test' | 20.000 |
'dragon_train' | 80.000 |
- Özellik yapısı :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
aydınlatma | Tensör | (3,) | kayan nokta32 | |
resim | Resim | (256, 256, 3) | uint8 | |
etiket | SınıfEtiketi | int64 | ||
poz_mat | Tensör | (3, 3) | kayan nokta32 | |
poz_quat | Tensör | (4,) | kayan nokta32 |
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}