- وصف :
مجموعة البيانات الموصوفة لأول مرة في قسم "كائنات ستانفورد ثلاثية الأبعاد" من الورقة Disentangling by Subspace Diffusion . تتكون البيانات من 100.000 عرض لكل كائن من كائنات Bunny وDragon من مستودع Stanford 3D Scanning Repository . يمكن إضافة المزيد من الكائنات في المستقبل، ولكن يتم استخدام الأرنب والتنين فقط في الورقة. يتم تقديم كل كائن بإضاءة ذات عينات موحدة من نقطة على الكرة الثنائية، ودوران ثلاثي الأبعاد ذو عينات موحدة. يتم توفير الحالات الكامنة الحقيقية كمصفوفات NumPy مع الصور. يتم إعطاء الإضاءة كمتجه 3 مع معيار الوحدة، في حين يتم توفير الدوران على شكل مصفوفة كواترنيون ومصفوفة متعامدة 3x3.
هناك العديد من أوجه التشابه بين S3O4D ومجموعات البيانات المعيارية الحالية لتعلم الآلة مثل NORB ، والكراسي ثلاثية الأبعاد ، والأشكال ثلاثية الأبعاد وغيرها الكثير، والتي تتضمن أيضًا عروضًا لمجموعة من الكائنات في ظل ظروف وإضاءة مختلفة. ومع ذلك، لا تتضمن أي من مجموعات البيانات الموجودة هذه المجموعة الكاملة للدورات ثلاثية الأبعاد - فمعظمها يتضمن فقط مجموعة فرعية من التغييرات في الارتفاع والسمت. يتم أخذ عينات من صور S3O4D بشكل موحد ومستقل عن المساحة الكاملة للدورات والإضاءة، مما يعني أن مجموعة البيانات تحتوي على كائنات مقلوبة رأسًا على عقب ومضاءة من الخلف أو من الأسفل. نحن نعتقد أن هذا يجعل S3O4D مناسبًا بشكل فريد للبحث في النماذج التوليدية حيث يكون للمساحة الكامنة طوبولوجيا غير تافهة، وكذلك لأساليب التعلم العامة المتشعبة حيث يكون انحناء المشعب مهمًا.
وثائق إضافية : استكشف الأوراق ذات الكود
الصفحة الرئيسية : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
كود المصدر :
tfds.datasets.s3o4d.Builder
الإصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
911.68 MiB
حجم مجموعة البيانات :
1.01 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'bunny_test' | 20.000 |
'bunny_train' | 80.000 |
'dragon_test' | 20.000 |
'dragon_train' | 80.000 |
- هيكل الميزة :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
إضاءة | الموتر | (3،) | float32 | |
صورة | صورة | (256، 256، 3) | uint8 | |
ملصق | ClassLabel | int64 | ||
pose_mat | الموتر | (3، 3) | float32 | |
pose_quat | الموتر | (4،) | float32 |
المفاتيح الخاضعة للإشراف (راجع
as_supervised
doc ):None
الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}