Ref_coco

  • विवरण :

COCO डेटासेट में छवियों पर आधारित 3 रेफ़रिंग एक्सप्रेशन डेटासेट का संग्रह। सन्दर्भित अभिव्यक्ति पाठ का एक टुकड़ा है जो किसी छवि में एक अद्वितीय वस्तु का वर्णन करता है। ये डेटासेट मानव मूल्यांकनकर्ताओं को COCO डेटासेट में बाउंडिंग बॉक्स द्वारा चित्रित वस्तुओं को स्पष्ट करने के लिए कहकर एकत्र किए जाते हैं।

RefCoco और RefCoco+ Kazemzadeh et al से हैं। 2014. RefCoco+ अभिव्यक्तियाँ पूरी तरह से उपस्थिति आधारित विवरण हैं, जिन्हें उन्होंने मूल्यांकनकर्ताओं को स्थान आधारित विवरणों का उपयोग करने से रोककर लागू किया है (उदाहरण के लिए, "दाईं ओर का व्यक्ति" RefCoco+ के लिए वैध विवरण नहीं है)। RefCocoG माओ एट अल से है। 2016, और एनोटेशन प्रक्रिया में अंतर के कारण रेफकोको की तुलना में वस्तुओं का अधिक समृद्ध विवरण है। विशेष रूप से, RefCoco को एक इंटरैक्टिव गेम-आधारित सेटिंग में एकत्र किया गया था, जबकि RefCocoG को एक गैर-इंटरैक्टिव सेटिंग में एकत्र किया गया था। औसतन, RefCocoG में प्रति अभिव्यक्ति 8.4 शब्द हैं जबकि RefCoco में 3.5 शब्द हैं।

प्रत्येक डेटासेट में अलग-अलग विभाजित आवंटन होते हैं जो आम तौर पर कागजात में रिपोर्ट किए जाते हैं। RefCoco और RefCoco+ में "testA" और "testB" सेट में क्रमशः केवल लोग और केवल गैर-लोग शामिल हैं। छवियों को विभिन्न विभाजनों में विभाजित किया गया है। "Google" विभाजन में, वस्तुओं को, छवियों को नहीं, ट्रेन और गैर-ट्रेन विभाजन के बीच विभाजित किया जाता है। इसका मतलब यह है कि एक ही छवि ट्रेन और सत्यापन विभाजन दोनों में दिखाई दे सकती है, लेकिन छवि में संदर्भित वस्तुएं दोनों सेटों के बीच भिन्न होंगी। इसके विपरीत, "unc" और "umd" ट्रेन, सत्यापन और परीक्षण विभाजन के बीच विभाजन छवियों को विभाजित करते हैं। RefCocoG में, "Google" स्प्लिट में एक कैनोनिकल परीक्षण सेट नहीं होता है, और सत्यापन सेट आमतौर पर कागजात में "वैल*" के रूप में रिपोर्ट किया जाता है।

प्रत्येक डेटासेट और विभाजन के लिए आँकड़े ("रेफ्स" संदर्भित अभिव्यक्तियों की संख्या है, और "छवियाँ" छवियों की संख्या है):

डाटासेट PARTITION विभाजित करना रेफरी इमेजिस
refcoco गूगल रेलगाड़ी 40000 19213
refcoco गूगल वैल 5000 4559
refcoco गूगल परीक्षा 5000 4527
refcoco यूएनसी रेलगाड़ी 42404 16994
refcoco यूएनसी वैल 3811 1500
refcoco यूएनसी परीक्षणए 1975 750
refcoco यूएनसी परीक्षणबी 1810 750
रेफकोको+ यूएनसी रेलगाड़ी 42278 16992
रेफकोको+ यूएनसी वैल 3805 1500
रेफकोको+ यूएनसी परीक्षणए 1975 750
रेफकोको+ यूएनसी परीक्षणबी 1798 750
refcocog गूगल रेलगाड़ी 44822 24698
refcocog गूगल वैल 5000 4650
refcocog उम्द रेलगाड़ी 42226 21899
refcocog उम्द वैल 2573 1300
refcocog उम्द परीक्षा 5023 2600
  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले कागजात पर अन्वेषण करें

  • मुखपृष्ठ : https://github.com/lichengunc/refer

  • स्रोत कोड : tfds.datasets.ref_coco.Builder

  • संस्करण :

    • 1.0.0 : प्रारंभिक रिलीज.
    • 1.1.0 (डिफ़ॉल्ट): मास्क जोड़े गए।
  • डाउनलोड आकार : Unknown size

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:

  • https://github.com/lichengunc/refer में दिए गए निर्देशों का पालन करें और रेपो में निर्दिष्ट डेटा/निर्देशिका से मेल खाते हुए एनोटेशन और छवियां डाउनलोड करें।

  1. https://cocodataset.org/#download से pycocotools और इंस्टेंस_ट्रेन2014 एनोटेशन फ़ाइल प्राप्त करने के लिए https://github.com/cocodataset/cocoapi में PythonAPI के निर्देशों का पालन करें।

  2. अपने PythonPATH में (1) से reference.py और (2) से pycocotools दोनों जोड़ें।

  3. Refcoco.json जनरेट करने के लिए मैन्युअल_डाउनलोड_प्रोसेस.py चलाएँ, ref_data_root , coco_annotations_file और out_file उन मानों से बदलें जहाँ आपने इन फ़ाइलों को डाउनलोड किया है / सहेजना चाहते हैं। ध्यान दें कि मैन्युअल_डाउनलोड_प्रोसेस.py टीएफडीएस रिपॉजिटरी में पाया जा सकता है।

  4. https://cocodataset.org/#download से COCO प्रशिक्षण सेट डाउनलोड करें और इसे coco_train2014/ नामक फ़ोल्डर में चिपका दें। refcoco.json coco_train2014 के समान स्तर पर ले जाएँ।

  5. मानक मैन्युअल डाउनलोड निर्देशों का पालन करें।

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
कोको_एनोटेशन अनुक्रम
coco_annotations/क्षेत्र टेन्सर int64
coco_annotations/bbox बीबॉक्सफ़ीचर (4,) फ्लोट32
coco_annotations/id टेन्सर int64
कोको_एनोटेशन/लेबल टेन्सर int64
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि/आईडी टेन्सर int64
वस्तुओं अनुक्रम
वस्तुएं/क्षेत्र टेन्सर int64
ऑब्जेक्ट/बीबॉक्स बीबॉक्सफ़ीचर (4,) फ्लोट32
ऑब्जेक्ट/gt_box_index टेन्सर int64
ऑब्जेक्ट/आईडी टेन्सर int64
ऑब्जेक्ट/लेबल टेन्सर int64
वस्तुएं/मुखौटा छवि (कोई नहीं, कोई नहीं, 3) uint8
ऑब्जेक्ट/रिफेक्स्प अनुक्रम
ऑब्जेक्ट/रेफएक्सपी/कच्चा मूलपाठ डोरी
ऑब्जेक्ट/refexp/refexp_id टेन्सर int64
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • उद्धरण :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

Ref_coco/refcoco_unc (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 3.29 GiB

  • विभाजन :

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

VISUALIZATION

Ref_coco/refcoco_google

  • डेटासेट का आकार : 4.65 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,527
'train' 19,213
'validation' 4,559

VISUALIZATION

Ref_coco/refcocoplus_unc

  • डेटासेट का आकार : 3.29 GiB

  • विभाजन :

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

VISUALIZATION

Ref_coco/refcocog_google

  • डेटासेट का आकार : 4.64 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 24,698
'validation' 4,650

VISUALIZATION

Ref_coco/refcocog_umd

  • डेटासेट का आकार : 4.08 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,600
'train' 21,899
'validation' 1,300

VISUALIZATION