- Tanım :
COCO, büyük ölçekli bir nesne algılama, segmentasyon ve resim yazısı veri kümesidir. Bu sürüm, Karpathy ve Li (2015) tarafından tanımlanan alt kümelere ayrılmış, COCO 2014'ten görüntüler, sınırlayıcı kutular, etiketler ve başlıklar içerir. Bu, orijinal COCO 2014 doğrulama verilerini yeni 5000 görüntülü doğrulama ve test kümelerine ve ayrıca kalan ~30 bin görüntüyü içeren bir "dinlenme" kümesine etkili bir şekilde böler. Tüm bölmelerin altyazı ek açıklamaları vardır.
Yapılandırma açıklaması : Bu sürüm, 2014 sürümü için resimler, sınırlayıcı kutular ve etiketler içerir.
Ana sayfa : http://cocodataset.org/#home
Kaynak kodu :
tfds.object_detection.CocoCaptions
Sürümler :
-
1.1.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
37.61 GiB
Veri kümesi boyutu :
18.83 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'restval' | 30.504 |
'test' | 5.000 |
'train' | 82.783 |
'val' | 5.000 |
- Özellik yapısı :
FeaturesDict({
'captions': Sequence({
'id': int64,
'text': string,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/filename': Text(shape=(), dtype=string),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'is_crowd': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
altyazılar | Sekans | |||
altyazı/kimlik | Tensör | int64 | ||
başlıklar/metin | Tensör | sicim | ||
resim | Resim | (Yok, Yok, 3) | uint8 | |
resim/dosya adı | Metin | sicim | ||
resim/kimlik | Tensör | int64 | ||
nesneler | Sekans | |||
nesneler/alan | Tensör | int64 | ||
nesneler/bbox | BBoxÖzelliği | (4,) | kayan nokta32 | |
nesneler/kimlik | Tensör | int64 | ||
nesneler/is_crowd | Tensör | bool | ||
nesneler/etiket | SınıfEtiketi | int64 |
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{DBLP:journals/corr/LinMBHPRDZ14,
author = {Tsung{-}Yi Lin and
Michael Maire and
Serge J. Belongie and
Lubomir D. Bourdev and
Ross B. Girshick and
James Hays and
Pietro Perona and
Deva Ramanan and
Piotr Doll{'{a} }r and
C. Lawrence Zitnick},
title = {Microsoft {COCO:} Common Objects in Context},
journal = {CoRR},
volume = {abs/1405.0312},
year = {2014},
url = {http://arxiv.org/abs/1405.0312},
archivePrefix = {arXiv},
eprint = {1405.0312},
timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
author = {Andrej Karpathy and
Fei{-}Fei Li},
title = {Deep visual-semantic alignments for generating image
descriptions},
booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
{CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
pages = {3128--3137},
publisher = { {IEEE} Computer Society},
year = {2015},
url = {https://doi.org/10.1109/CVPR.2015.7298932},
doi = {10.1109/CVPR.2015.7298932},
timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
biburl = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}