open_images_v4

  • وصف :

Open Images عبارة عن مجموعة بيانات مكونة من حوالي 9 ملايين صورة تم التعليق عليها باستخدام تسميات على مستوى الصورة ومربعات محيطة بالكائنات.

تحتوي مجموعة التدريب V4 على 14.6 مليون مربع محيط لـ 600 فئة كائن على 1.74 مليون صورة، مما يجعلها أكبر مجموعة بيانات موجودة مع تعليقات توضيحية لموقع الكائن. تم رسم الصناديق يدويًا إلى حد كبير بواسطة شروحيين محترفين لضمان الدقة والاتساق. الصور متنوعة جدًا وغالبًا ما تحتوي على مشاهد معقدة تحتوي على عدة كائنات (8.4 لكل صورة في المتوسط). علاوة على ذلك، يتم شرح مجموعة البيانات باستخدام تسميات على مستوى الصورة تغطي آلاف الفئات.

ينقسم أمثلة
'test' 125,436
'train' 1,743,042
'validation' 41,620
  • هيكل الميزة :
FeaturesDict({
    'bobjects': Sequence({
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'is_depiction': int8,
        'is_group_of': int8,
        'is_inside': int8,
        'is_occluded': int8,
        'is_truncated': int8,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'objects': Sequence({
        'confidence': int32,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'objects_trainable': Sequence({
        'confidence': int32,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
كائنات تسلسل
كائنات/بي بوكس ميزة BBox (4،) float32
bobjects/is_depiction الموتر كثافة العمليات8
bobjects/is_group_of الموتر كثافة العمليات8
bobjects/is_inside الموتر كثافة العمليات8
bobjects/is_occluded الموتر كثافة العمليات8
bobjects/is_truncated الموتر كثافة العمليات8
الكائنات/التسمية ClassLabel int64
الكائنات/المصدر ClassLabel int64
صورة صورة (لا شيء، لا شيء، 3) uint8
الصورة/اسم الملف نص خيط
أشياء تسلسل
الأشياء/الثقة الموتر int32
الكائنات/التسمية ClassLabel int64
الكائنات/المصدر ClassLabel int64
object_trainable تسلسل
objects_trainable/confidence الموتر int32
objects_trainable/label ClassLabel int64
object_trainable/source ClassLabel int64
  • المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None

  • الاقتباس :

@article{OpenImages,
  author = {Alina Kuznetsova and
            Hassan Rom and
            Neil Alldrin and
            Jasper Uijlings and
            Ivan Krasin and
            Jordi Pont-Tuset and
            Shahab Kamali and
            Stefan Popov and
            Matteo Malloci and
            Tom Duerig and
            Vittorio Ferrari},
  title = {The Open Images Dataset V4: Unified image classification,
           object detection, and visual relationship detection at scale},
  year = {2018},
  journal = {arXiv:1811.00982}
}
@article{OpenImages2,
  author = {Krasin, Ivan and
            Duerig, Tom and
            Alldrin, Neil and
            Ferrari, Vittorio
            and Abu-El-Haija, Sami and
            Kuznetsova, Alina and
            Rom, Hassan and
            Uijlings, Jasper and
            Popov, Stefan and
            Kamali, Shahab and
            Malloci, Matteo and
            Pont-Tuset, Jordi and
            Veit, Andreas and
            Belongie, Serge and
            Gomes, Victor and
            Gupta, Abhinav and
            Sun, Chen and
            Chechik, Gal and
            Cai, David and
            Feng, Zheyun and
            Narayanan, Dhyanesh and
            Murphy, Kevin},
  title = {OpenImages: A public dataset for large-scale multi-label and
           multi-class image classification.},
  journal = {Dataset available from
             https://storage.googleapis.com/openimages/web/index.html},
  year={2017}
}

open_images_v4/original (التكوين الافتراضي)

  • وصف التكوين : الصور بالدقة والجودة الأصلية.

  • حجم مجموعة البيانات : 562.42 GiB

  • الشكل ( tfds.show_examples ):

التصور

open_images_v4/300k

  • وصف التكوين : تحتوي الصور على ما يقرب من 300000 بكسل، بجودة 72 JPEG.

  • حجم مجموعة البيانات : 81.92 GiB

  • الشكل ( tfds.show_examples ):

التصور

open_images_v4/200k

  • وصف التكوين : تحتوي الصور على ما يقرب من 200000 بكسل، بجودة 72 JPEG.

  • حجم مجموعة البيانات : 60.70 GiB

  • الشكل ( tfds.show_examples ):

التصور