مكان

  • توضیحات :

مجموعه داده Places بر اساس اصول شناخت بصری انسان طراحی شده است. هدف ما ایجاد هسته‌ای از دانش بصری است که می‌تواند برای آموزش سیستم‌های مصنوعی برای وظایف درک بصری سطح بالا، مانند زمینه صحنه، تشخیص اشیا، پیش‌بینی کنش و رویداد، و استنتاج نظریه ذهن مورد استفاده قرار گیرد.

مقوله‌های معنایی مکان‌ها با عملکردشان تعریف می‌شوند: برچسب‌ها سطح ورودی یک محیط را نشان می‌دهند. برای نشان دادن، مجموعه داده دارای دسته‌های متفاوتی از اتاق‌خواب‌ها، یا خیابان‌ها و غیره است، زیرا فرد به‌صورت یکسان عمل نمی‌کند، و پیش‌بینی‌های یکسانی درباره اتفاقات بعدی، در اتاق خواب خانه، اتاق خواب هتل یا مهد کودک، انجام نمی‌دهد. در مجموع، Places حاوی بیش از 10 میلیون تصویر است که شامل بیش از 400 دسته صحنه منحصر به فرد است. مجموعه داده دارای 5000 تا 30000 تصویر آموزشی در هر کلاس است که با فراوانی وقوع در دنیای واقعی سازگار است. با استفاده از شبکه‌های عصبی کانولوشنال (CNN)، مجموعه داده‌های مکان‌ها امکان یادگیری ویژگی‌های صحنه عمیق را برای وظایف مختلف تشخیص صحنه، با هدف ایجاد اجراهای پیشرفته جدید بر روی معیارهای صحنه محور، می‌دهد.

در اینجا ما پایگاه داده مکان ها و CNN های آموزش دیده را برای اهداف پژوهشی و آموزشی ارائه می دهیم.

شکاف مثال ها
'train' 10,653,087
  • ساختار ویژگی :
FeaturesDict({
    'filename': Text(shape=(), dtype=string),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=435),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
نام فایل متن رشته
تصویر تصویر (256، 256، 3) uint8
برچسب ClassLabel int64
  • کلیدهای تحت نظارت (به as_supervised نظارت شده مراجعه کنید): ('image', 'label', 'filename')

  • شکل ( tfds.show_examples ):

تجسم

  • نقل قول :
@article{zhou2017places,
  title={Places: A 10 million Image Database for Scene Recognition},
  author={Zhou, Bolei and Lapedriza, Agata and Khosla, Aditya and Oliva, Aude and Torralba, Antonio},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year={2017},
  publisher={IEEE}
}