coco_captions

COCO es un conjunto de datos de subtítulos, segmentación y detección de objetos a gran escala. Esta versión contiene imágenes, cuadros delimitadores, etiquetas y subtítulos de COCO 2014, divididos en los subconjuntos definidos por Karpathy y Li (2015). Esto divide efectivamente los datos de validación originales de COCO 2014 en nuevos conjuntos de prueba y validación de 5000 imágenes, además de un conjunto "restval" que contiene las aproximadamente 30 000 imágenes restantes. Todas las divisiones tienen anotaciones de subtítulos.

Separar Ejemplos
'restval' 30,504
'test' 5,000
'train' 82,783
'val' 5,000
  • Estructura de características :
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
subtítulos Secuencia
subtítulos/identificación Tensor int64
subtítulos/texto Tensor cuerda
imagen Imagen (Ninguno, Ninguno, 3) uint8
imagen/nombre de archivo Texto cuerda
imagen/identificación Tensor int64
objetos Secuencia
objetos/área Tensor int64
objetos/bbox BBoxCaracterística (4,) flotar32
objetos/identificación Tensor int64
objetos/es_multitud Tensor bool
objetos/etiqueta Etiqueta de clase int64

Visualización

  • Cita :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (configuración predeterminada)