open_images_v4

Open Images é um conjunto de dados de cerca de 9 milhões de imagens que foram anotadas com rótulos no nível da imagem e caixas delimitadoras de objetos.

O conjunto de treinamento da V4 contém 14,6 milhões de caixas delimitadoras para 600 classes de objetos em imagens de 1,74 milhões, tornando-o o maior conjunto de dados existente com anotações de localização de objetos. As caixas foram em grande parte desenhadas manualmente por anotadores profissionais para garantir precisão e consistência. As imagens são muito diversas e muitas vezes contêm cenas complexas com vários objetos (8,4 por imagem em média). Além disso, o conjunto de dados é anotado com rótulos em nível de imagem abrangendo milhares de classes.

Dividir Exemplos
'test' 125.436
'train' 1.743.042
'validation' 41.620
  • Estrutura de recursos :
FeaturesDict({
    'bobjects': Sequence({
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'is_depiction': int8,
        'is_group_of': int8,
        'is_inside': int8,
        'is_occluded': int8,
        'is_truncated': int8,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'objects': Sequence({
        'confidence': int32,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'objects_trainable': Sequence({
        'confidence': int32,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
bobjects Seqüência
bobjects/bbox Recurso BBox (4,) float32
bobjects/is_depiction tensor int8
bobjects/is_group_of tensor int8
bobjects/is_inside tensor int8
bobjects/is_occluded tensor int8
bobjects/is_truncated tensor int8
bobjects/label ClassLabel int64
objetos/fonte ClassLabel int64
imagem Imagem (Nenhuma, Nenhuma, 3) uint8
imagem/nome do arquivo Texto corda
objetos Seqüência
objetos/confiança tensor int32
objetos/rótulo ClassLabel int64
objetos/fonte ClassLabel int64
objetos_treináveis Seqüência
objetos_treináveis/confiança tensor int32
objetos_treináveis/label ClassLabel int64
objetos_treináveis/origem ClassLabel int64
@article{OpenImages,
  author = {Alina Kuznetsova and
            Hassan Rom and
            Neil Alldrin and
            Jasper Uijlings and
            Ivan Krasin and
            Jordi Pont-Tuset and
            Shahab Kamali and
            Stefan Popov and
            Matteo Malloci and
            Tom Duerig and
            Vittorio Ferrari},
  title = {The Open Images Dataset V4: Unified image classification,
           object detection, and visual relationship detection at scale},
  year = {2018},
  journal = {arXiv:1811.00982}
}
@article{OpenImages2,
  author = {Krasin, Ivan and
            Duerig, Tom and
            Alldrin, Neil and
            Ferrari, Vittorio
            and Abu-El-Haija, Sami and
            Kuznetsova, Alina and
            Rom, Hassan and
            Uijlings, Jasper and
            Popov, Stefan and
            Kamali, Shahab and
            Malloci, Matteo and
            Pont-Tuset, Jordi and
            Veit, Andreas and
            Belongie, Serge and
            Gomes, Victor and
            Gupta, Abhinav and
            Sun, Chen and
            Chechik, Gal and
            Cai, David and
            Feng, Zheyun and
            Narayanan, Dhyanesh and
            Murphy, Kevin},
  title = {OpenImages: A public dataset for large-scale multi-label and
           multi-class image classification.},
  journal = {Dataset available from
             https://storage.googleapis.com/openimages/web/index.html},
  year={2017}
}

open_images_v4/original (configuração padrão)

  • Descrição da configuração : Imagens em sua resolução e qualidade originais.

  • Tamanho do conjunto de dados : 562.42 GiB

  • Figura ( tfds.show_examples ):

Visualização

open_images_v4/300k

  • Descrição da configuração : As imagens têm aproximadamente 300.000 pixels, com qualidade 72 JPEG.

  • Tamanho do conjunto de dados : 81.92 GiB

  • Figura ( tfds.show_examples ):

Visualização

open_images_v4/200k

  • Descrição da configuração : As imagens têm aproximadamente 200.000 pixels, com qualidade 72 JPEG.

  • Tamanho do conjunto de dados : 60.70 GiB

  • Figura ( tfds.show_examples ):

Visualização