s3_o4_d

  • תיאור :

מערך הנתונים המתואר לראשונה בסעיף "אובייקטים תלת מימדיים של סטנפורד" במאמר Disentangling by Subspace Diffusion . הנתונים מורכבים מ-100,000 עיבודים של כל אחד מהאובייקטים של באני ודרקון ממאגר הסריקה התלת-ממדית של סטנפורד . ייתכן שעוד חפצים יתווספו בעתיד, אבל רק הארנב והדרקון משמשים בנייר. כל אובייקט מוצג עם תאורה מדוגמת אחידה מנקודה על 2-הכדור, וסיבוב תלת מימדי מדוגם אחיד. המצבים הסמויים האמיתיים מסופקים כמערכי NumPy יחד עם התמונות. התאורה ניתנת כ-3 וקטור עם נורמה יחידה, בעוד שהסיבוב מסופק הן כקווטרניון והן כמטריצה ​​אורתוגונלית 3x3.

ישנם קווי דמיון רבים בין S3O4D לבין מערכי נתונים קיימים של ML כמו NORB , 3D Chairs , 3D Shapes ועוד רבים אחרים, הכוללים גם עיבודים של קבוצה של אובייקטים בתנאי תנוחה והארה שונים. עם זאת, אף אחד ממערכי הנתונים הקיימים הללו אינו כולל את מגוון הסיבובים המלא בתלת-ממד - רובם כוללים רק תת-קבוצה של שינויים בגובה ובאזימוט. תמונות S3O4D נדגמות באופן אחיד ובלתי תלוי מהמרחב המלא של סיבובים והארות, כלומר מערך הנתונים מכיל אובייקטים הפוכים ומוארים מאחור או מתחת. אנו מאמינים שזה הופך את S3O4D למתאים באופן ייחודי למחקר על מודלים גנרטיביים שבהם למרחב הסמוי יש טופולוגיה לא טריוויאלית, כמו גם לשיטות למידה מגוונות כלליות שבהן העקמומיות של הסעפת חשובה.

לְפַצֵל דוגמאות
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • תכונות :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}

רְאִיָה