- विवरण :
COCO डेटासेट में छवियों पर आधारित 3 रेफ़रिंग एक्सप्रेशन डेटासेट का संग्रह। सन्दर्भित अभिव्यक्ति पाठ का एक टुकड़ा है जो किसी छवि में एक अद्वितीय वस्तु का वर्णन करता है। ये डेटासेट मानव मूल्यांकनकर्ताओं को COCO डेटासेट में बाउंडिंग बॉक्स द्वारा चित्रित वस्तुओं को स्पष्ट करने के लिए कहकर एकत्र किए जाते हैं।
RefCoco और RefCoco+ Kazemzadeh et al से हैं। 2014. RefCoco+ अभिव्यक्तियाँ पूरी तरह से उपस्थिति आधारित विवरण हैं, जिन्हें उन्होंने मूल्यांकनकर्ताओं को स्थान आधारित विवरणों का उपयोग करने से रोककर लागू किया है (उदाहरण के लिए, "दाईं ओर का व्यक्ति" RefCoco+ के लिए वैध विवरण नहीं है)। RefCocoG माओ एट अल से है। 2016, और एनोटेशन प्रक्रिया में अंतर के कारण रेफकोको की तुलना में वस्तुओं का अधिक समृद्ध विवरण है। विशेष रूप से, RefCoco को एक इंटरैक्टिव गेम-आधारित सेटिंग में एकत्र किया गया था, जबकि RefCocoG को एक गैर-इंटरैक्टिव सेटिंग में एकत्र किया गया था। औसतन, RefCocoG में प्रति अभिव्यक्ति 8.4 शब्द हैं जबकि RefCoco में 3.5 शब्द हैं।
प्रत्येक डेटासेट में अलग-अलग विभाजित आवंटन होते हैं जो आम तौर पर कागजात में रिपोर्ट किए जाते हैं। RefCoco और RefCoco+ में "testA" और "testB" सेट में क्रमशः केवल लोग और केवल गैर-लोग शामिल हैं। छवियों को विभिन्न विभाजनों में विभाजित किया गया है। "Google" विभाजन में, वस्तुओं को, छवियों को नहीं, ट्रेन और गैर-ट्रेन विभाजन के बीच विभाजित किया जाता है। इसका मतलब यह है कि एक ही छवि ट्रेन और सत्यापन विभाजन दोनों में दिखाई दे सकती है, लेकिन छवि में संदर्भित वस्तुएं दोनों सेटों के बीच भिन्न होंगी। इसके विपरीत, "unc" और "umd" ट्रेन, सत्यापन और परीक्षण विभाजन के बीच विभाजन छवियों को विभाजित करते हैं। RefCocoG में, "Google" स्प्लिट में एक कैनोनिकल परीक्षण सेट नहीं होता है, और सत्यापन सेट आमतौर पर कागजात में "वैल*" के रूप में रिपोर्ट किया जाता है।
प्रत्येक डेटासेट और विभाजन के लिए आँकड़े ("रेफ्स" संदर्भित अभिव्यक्तियों की संख्या है, और "छवियाँ" छवियों की संख्या है):
डाटासेट | PARTITION | विभाजित करना | रेफरी | इमेजिस |
---|---|---|---|---|
refcoco | गूगल | रेलगाड़ी | 40000 | 19213 |
refcoco | गूगल | वैल | 5000 | 4559 |
refcoco | गूगल | परीक्षा | 5000 | 4527 |
refcoco | यूएनसी | रेलगाड़ी | 42404 | 16994 |
refcoco | यूएनसी | वैल | 3811 | 1500 |
refcoco | यूएनसी | परीक्षणए | 1975 | 750 |
refcoco | यूएनसी | परीक्षणबी | 1810 | 750 |
रेफकोको+ | यूएनसी | रेलगाड़ी | 42278 | 16992 |
रेफकोको+ | यूएनसी | वैल | 3805 | 1500 |
रेफकोको+ | यूएनसी | परीक्षणए | 1975 | 750 |
रेफकोको+ | यूएनसी | परीक्षणबी | 1798 | 750 |
refcocog | गूगल | रेलगाड़ी | 44822 | 24698 |
refcocog | गूगल | वैल | 5000 | 4650 |
refcocog | उम्द | रेलगाड़ी | 42226 | 21899 |
refcocog | उम्द | वैल | 2573 | 1300 |
refcocog | उम्द | परीक्षा | 5023 | 2600 |
मुखपृष्ठ : https://github.com/lichengunc/refer
स्रोत कोड :
tfds.datasets.ref_coco.Builder
संस्करण :
-
1.0.0
: प्रारंभिक रिलीज. -
1.1.0
(डिफ़ॉल्ट): मास्क जोड़े गए।
-
डाउनलोड आकार :
Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:https://github.com/lichengunc/refer में दिए गए निर्देशों का पालन करें और रेपो में निर्दिष्ट डेटा/निर्देशिका से मेल खाते हुए एनोटेशन और छवियां डाउनलोड करें।
https://cocodataset.org/#download से pycocotools और इंस्टेंस_ट्रेन2014 एनोटेशन फ़ाइल प्राप्त करने के लिए https://github.com/cocodataset/cocoapi में PythonAPI के निर्देशों का पालन करें।
अपने PythonPATH में (1) से reference.py और (2) से pycocotools दोनों जोड़ें।
Refcoco.json जनरेट करने के लिए मैन्युअल_डाउनलोड_प्रोसेस.py चलाएँ,
ref_data_root
,coco_annotations_file
औरout_file
उन मानों से बदलें जहाँ आपने इन फ़ाइलों को डाउनलोड किया है / सहेजना चाहते हैं। ध्यान दें कि मैन्युअल_डाउनलोड_प्रोसेस.py टीएफडीएस रिपॉजिटरी में पाया जा सकता है।https://cocodataset.org/#download से COCO प्रशिक्षण सेट डाउनलोड करें और इसे
coco_train2014/
नामक फ़ोल्डर में चिपका दें।refcoco.json
coco_train2014
के समान स्तर पर ले जाएँ।मानक मैन्युअल डाउनलोड निर्देशों का पालन करें।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कोको_एनोटेशन | अनुक्रम | |||
coco_annotations/क्षेत्र | टेन्सर | int64 | ||
coco_annotations/bbox | बीबॉक्सफ़ीचर | (4,) | फ्लोट32 | |
coco_annotations/id | टेन्सर | int64 | ||
कोको_एनोटेशन/लेबल | टेन्सर | int64 | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि/आईडी | टेन्सर | int64 | ||
वस्तुओं | अनुक्रम | |||
वस्तुएं/क्षेत्र | टेन्सर | int64 | ||
ऑब्जेक्ट/बीबॉक्स | बीबॉक्सफ़ीचर | (4,) | फ्लोट32 | |
ऑब्जेक्ट/gt_box_index | टेन्सर | int64 | ||
ऑब्जेक्ट/आईडी | टेन्सर | int64 | ||
ऑब्जेक्ट/लेबल | टेन्सर | int64 | ||
वस्तुएं/मुखौटा | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
ऑब्जेक्ट/रिफेक्स्प | अनुक्रम | |||
ऑब्जेक्ट/रेफएक्सपी/कच्चा | मूलपाठ | डोरी | ||
ऑब्जेक्ट/refexp/refexp_id | टेन्सर | int64 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
उद्धरण :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
Ref_coco/refcoco_unc (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डेटासेट का आकार :
3.29 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1,500 |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
Ref_coco/refcoco_google
डेटासेट का आकार :
4.65 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
Ref_coco/refcocoplus_unc
डेटासेट का आकार :
3.29 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1,500 |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
Ref_coco/refcocog_google
डेटासेट का आकार :
4.64 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
Ref_coco/refcocog_umd
डेटासेट का आकार :
4.08 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,600 |
'train' | 21,899 |
'validation' | 1,300 |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):