- विवरण :
COCO एक बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग डेटासेट है। इस संस्करण में COCO 2014 की छवियां, बाउंडिंग बॉक्स, लेबल और कैप्शन शामिल हैं, जो कारपैथी और ली (2015) द्वारा परिभाषित सबसेट में विभाजित हैं। यह प्रभावी रूप से मूल COCO 2014 सत्यापन डेटा को नए 5000-छवि सत्यापन और परीक्षण सेट में विभाजित करता है, साथ ही शेष ~ 30k छवियों वाले "रेस्टवल" सेट को भी विभाजित करता है। सभी स्प्लिट्स में कैप्शन एनोटेशन होते हैं।
कॉन्फ़िगरेशन विवरण : इस संस्करण में 2014 संस्करण के लिए चित्र, बाउंडिंग बॉक्स और लेबल शामिल हैं।
मुखपृष्ठ : http://cocodataset.org/#home
स्रोत कोड :
tfds.object_detection.CocoCaptions
संस्करण :
-
1.1.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
37.61 GiB
डेटासेट का आकार :
18.83 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'restval' | 30,504 |
'test' | 5,000 |
'train' | 82,783 |
'val' | 5,000 |
- फ़ीचर संरचना :
FeaturesDict({
'captions': Sequence({
'id': int64,
'text': string,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/filename': Text(shape=(), dtype=string),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'is_crowd': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कैप्शन | अनुक्रम | |||
कैप्शन/आईडी | टेन्सर | int64 | ||
कैप्शन/पाठ | टेन्सर | डोरी | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि/फ़ाइल नाम | मूलपाठ | डोरी | ||
छवि/आईडी | टेन्सर | int64 | ||
वस्तुओं | अनुक्रम | |||
वस्तुएं/क्षेत्र | टेन्सर | int64 | ||
ऑब्जेक्ट/बीबॉक्स | बीबॉक्सफ़ीचर | (4,) | फ्लोट32 | |
ऑब्जेक्ट/आईडी | टेन्सर | int64 | ||
ऑब्जेक्ट/is_crowd | टेन्सर | बूल | ||
ऑब्जेक्ट/लेबल | क्लास लेबल | int64 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{DBLP:journals/corr/LinMBHPRDZ14,
author = {Tsung{-}Yi Lin and
Michael Maire and
Serge J. Belongie and
Lubomir D. Bourdev and
Ross B. Girshick and
James Hays and
Pietro Perona and
Deva Ramanan and
Piotr Doll{'{a} }r and
C. Lawrence Zitnick},
title = {Microsoft {COCO:} Common Objects in Context},
journal = {CoRR},
volume = {abs/1405.0312},
year = {2014},
url = {http://arxiv.org/abs/1405.0312},
archivePrefix = {arXiv},
eprint = {1405.0312},
timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
author = {Andrej Karpathy and
Fei{-}Fei Li},
title = {Deep visual-semantic alignments for generating image
descriptions},
booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
{CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
pages = {3128--3137},
publisher = { {IEEE} Computer Society},
year = {2015},
url = {https://doi.org/10.1109/CVPR.2015.7298932},
doi = {10.1109/CVPR.2015.7298932},
timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
biburl = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}