- คำอธิบาย :
ชุดข้อมูลที่อธิบายไว้ครั้งแรกในส่วน "Stanford 3D Objects" ของบทความ Disentangling by Subspace Diffusion ข้อมูลประกอบด้วยการเรนเดอร์ 100,000 ครั้งในแต่ละออบเจ็กต์ Bunny และ Dragon จาก Stanford 3D Scanning Repository อาจมีการเพิ่มวัตถุเพิ่มเติมในอนาคต แต่ใช้เฉพาะกระต่ายและมังกรในกระดาษ วัตถุแต่ละชิ้นถูกเรนเดอร์ด้วยแสงตัวอย่างที่สม่ำเสมอจากจุดบนทรงกลม 2 ทรงกลม และการหมุน 3 มิติตัวอย่างที่สม่ำเสมอ สถานะแฝงที่แท้จริงมีให้เป็นอาร์เรย์ NumPy พร้อมกับรูปภาพ การจัดแสงจะได้รับเป็นเวกเตอร์ 3 ตัวที่มีบรรทัดฐานหน่วย ในขณะที่การหมุนมีให้ทั้งในรูปแบบควอเทอร์เนียนและเมทริกซ์มุมฉาก 3x3
มีความคล้ายคลึงกันมากมายระหว่าง S3O4D และชุดข้อมูลการวัดประสิทธิภาพ ML ที่มีอยู่ เช่น NORB , 3D Chairs , 3D Shapes และอื่นๆ อีกมากมาย ซึ่งรวมถึงการเรนเดอร์ชุดของวัตถุภายใต้ท่าทางและสภาพแสงที่แตกต่างกัน อย่างไรก็ตาม ชุดข้อมูลที่มีอยู่เหล่านี้ไม่มีการหมุน ที่หลากหลาย ในรูปแบบ 3 มิติ ส่วนใหญ่มีเพียงชุดย่อยของการเปลี่ยนแปลงระดับความสูงและมุมราบเท่านั้น รูปภาพ S3O4D ได้รับการสุ่มตัวอย่างอย่างสม่ำเสมอและเป็นอิสระจากพื้นที่การหมุนและการส่องสว่างทั้งหมด หมายความว่าชุดข้อมูลประกอบด้วยวัตถุที่กลับหัวและส่องสว่างจากด้านหลังหรือด้านล่าง เราเชื่อว่าสิ่งนี้ทำให้ S3O4D เหมาะอย่างยิ่งสำหรับการวิจัยเกี่ยวกับแบบจำลองเชิงกำเนิดซึ่งพื้นที่แฝงมีโทโพโลยีที่ไม่สำคัญ เช่นเดียวกับวิธีการเรียนรู้ที่หลากหลายทั่วไปที่ความโค้งของท่อร่วมเป็นสิ่งสำคัญ
เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส
ซอร์สโค้ด :
tfds.datasets.s3o4d.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดดาวน์โหลด :
911.68 MiB
ขนาดชุดข้อมูล :
1.01 GiB
แคชอัตโนมัติ ( เอกสาร ): No
แยก :
แยก | ตัวอย่าง |
---|---|
'bunny_test' | 20,000 |
'bunny_train' | 80,000 |
'dragon_test' | 20,000 |
'dragon_train' | 80,000 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
แสงสว่าง | เทนเซอร์ | (3,) | ลอย32 | |
ภาพ | ภาพ | (256, 256, 3) | uint8 | |
ฉลาก | ClassLabel | int64 | ||
โพสท่า_mat | เทนเซอร์ | (3, 3) | ลอย32 | |
โพสท่า_ควอท | เทนเซอร์ | (4,) | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}