coco_captions

Tanım :

COCO, büyük ölçekli bir nesne algılama, segmentasyon ve resim yazısı veri kümesidir. Bu sürüm, Karpathy ve Li (2015) tarafından tanımlanan alt kümelere ayrılmış, COCO 2014'ten görüntüler, sınırlayıcı kutular, etiketler ve başlıklar içerir. Bu, orijinal COCO 2014 doğrulama verilerini yeni 5000 görüntülü doğrulama ve test kümelerine ve ayrıca kalan ~30 bin görüntüyü içeren bir "dinlenme" kümesine etkili bir şekilde böler. Tüm bölmelerin altyazı ek açıklamaları vardır.

Ek Belgeler : Kodlu Makaleleri Keşfedin
Yapılandırma açıklaması : Bu sürüm, 2014 sürümü için resimler, sınırlayıcı kutular ve etiketler içerir.
Ana sayfa : http://cocodataset.org/#home
Kaynak kodu : tfds.object_detection.CocoCaptions
Sürümler :
- 1.1.0 (varsayılan): Sürüm notu yok.
İndirme boyutu : 37.61 GiB
Veri kümesi boyutu : 18.83 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :

Bölmek	Örnekler
`'restval'`	30.504
`'test'`	5.000
`'train'`	82.783
`'val'`	5.000

Özellik yapısı :

FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
altyazılar	Sekans
altyazı/kimlik	Tensör		int64
başlıklar/metin	Tensör		sicim
resim	Resim	(Yok, Yok, 3)	uint8
resim/dosya adı	Metin		sicim
resim/kimlik	Tensör		int64
nesneler	Sekans
nesneler/alan	Tensör		int64
nesneler/bbox	BBoxÖzelliği	(4,)	kayan nokta32
nesneler/kimlik	Tensör		int64
nesneler/is_crowd	Tensör		bool
nesneler/etiket	SınıfEtiketi		int64

Denetlenen anahtarlar ( as_supervised belgesine bakın): None
Şekil ( tfds.show_examples ):

Görselleştirme

Örnekler ( tfds.as_dataframe ):

Alıntı :

@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions

coco_captions/2014 (varsayılan yapılandırma)