s3o4d

  • Описание :

Набор данных впервые описан в разделе «Стэнфордские 3D-объекты» статьи Disentangling by Subspace Diffusion . Данные состоят из 100 000 изображений каждого объекта «Кролик» и «Дракон» из Стэнфордского репозитория 3D-сканирования . В будущем могут быть добавлены и другие объекты, но в статье используются только Кролик и Дракон. Каждый объект визуализируется с равномерно выбранным освещением из точки на 2-сфере и с равномерно выбранным трехмерным вращением. Истинные скрытые состояния предоставляются в виде массивов NumPy вместе с изображениями. Освещение задается в виде 3-вектора с единичной нормой, а вращение предоставляется как в виде кватерниона, так и в виде ортогональной матрицы 3x3.

Существует много общего между S3O4D и существующими наборами эталонных данных ML, такими как NORB , 3D Chairs , 3D Shapes и многими другими, которые также включают в себя рендеринг набора объектов в разных позах и условиях освещения. Однако ни один из этих существующих наборов данных не включает полное разнообразие вращений в 3D — большинство включает только подмножество изменений высоты и азимута. Изображения S3O4D выбираются равномерно и независимо от всего пространства вращений и освещений, то есть набор данных содержит объекты, которые перевернуты и освещены сзади или снизу. Мы считаем, что это делает S3O4D уникально подходящим для исследования генеративных моделей, в которых скрытое пространство имеет нетривиальную топологию, а также для общих методов изучения многообразий, где важна кривизна многообразия.

Расколоть Примеры
'bunny_test' 20 000
'bunny_train' 80 000
'dragon_test' 20 000
'dragon_train' 80 000
  • Структура функции :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
освещение Тензор (3,) поплавок32
изображение Изображение (256, 256, 3) uint8
этикетка Класслейбл int64
поза_мат Тензор (3, 3) поплавок32
поза_quat Тензор (4,) поплавок32

Визуализация

  • Цитата :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}