टीएफडीएस अब क्रोइसैन 🥐 प्रारूप का समर्थन करता है! अधिक जानने के लिए दस्तावेज़ पढ़ें.

इस पेज का अनुवाद Cloud Translation API से किया गया है.

Ref_coco

विवरण :

COCO डेटासेट में छवियों पर आधारित 3 रेफ़रिंग एक्सप्रेशन डेटासेट का संग्रह। सन्दर्भित अभिव्यक्ति पाठ का एक टुकड़ा है जो किसी छवि में एक अद्वितीय वस्तु का वर्णन करता है। ये डेटासेट मानव मूल्यांकनकर्ताओं को COCO डेटासेट में बाउंडिंग बॉक्स द्वारा चित्रित वस्तुओं को स्पष्ट करने के लिए कहकर एकत्र किए जाते हैं।

RefCoco और RefCoco+ Kazemzadeh et al से हैं। 2014. RefCoco+ अभिव्यक्तियाँ पूरी तरह से उपस्थिति आधारित विवरण हैं, जिन्हें उन्होंने मूल्यांकनकर्ताओं को स्थान आधारित विवरणों का उपयोग करने से रोककर लागू किया है (उदाहरण के लिए, "दाईं ओर का व्यक्ति" RefCoco+ के लिए वैध विवरण नहीं है)। RefCocoG माओ एट अल से है। 2016, और एनोटेशन प्रक्रिया में अंतर के कारण रेफकोको की तुलना में वस्तुओं का अधिक समृद्ध विवरण है। विशेष रूप से, RefCoco को एक इंटरैक्टिव गेम-आधारित सेटिंग में एकत्र किया गया था, जबकि RefCocoG को एक गैर-इंटरैक्टिव सेटिंग में एकत्र किया गया था। औसतन, RefCocoG में प्रति अभिव्यक्ति 8.4 शब्द हैं जबकि RefCoco में 3.5 शब्द हैं।

प्रत्येक डेटासेट में अलग-अलग विभाजित आवंटन होते हैं जो आम तौर पर कागजात में रिपोर्ट किए जाते हैं। RefCoco और RefCoco+ में "testA" और "testB" सेट में क्रमशः केवल लोग और केवल गैर-लोग शामिल हैं। छवियों को विभिन्न विभाजनों में विभाजित किया गया है। "Google" विभाजन में, वस्तुओं को, छवियों को नहीं, ट्रेन और गैर-ट्रेन विभाजन के बीच विभाजित किया जाता है। इसका मतलब यह है कि एक ही छवि ट्रेन और सत्यापन विभाजन दोनों में दिखाई दे सकती है, लेकिन छवि में संदर्भित वस्तुएं दोनों सेटों के बीच भिन्न होंगी। इसके विपरीत, "unc" और "umd" ट्रेन, सत्यापन और परीक्षण विभाजन के बीच विभाजन छवियों को विभाजित करते हैं। RefCocoG में, "Google" स्प्लिट में एक कैनोनिकल परीक्षण सेट नहीं होता है, और सत्यापन सेट आमतौर पर कागजात में "वैल*" के रूप में रिपोर्ट किया जाता है।

प्रत्येक डेटासेट और विभाजन के लिए आँकड़े ("रेफ्स" संदर्भित अभिव्यक्तियों की संख्या है, और "छवियाँ" छवियों की संख्या है):

डाटासेट	PARTITION	विभाजित करना	रेफरी	इमेजिस
refcoco	गूगल	रेलगाड़ी	40000	19213
refcoco	गूगल	वैल	5000	4559
refcoco	गूगल	परीक्षा	5000	4527
refcoco	यूएनसी	रेलगाड़ी	42404	16994
refcoco	यूएनसी	वैल	3811	1500
refcoco	यूएनसी	परीक्षणए	1975	750
refcoco	यूएनसी	परीक्षणबी	1810	750
रेफकोको+	यूएनसी	रेलगाड़ी	42278	16992
रेफकोको+	यूएनसी	वैल	3805	1500
रेफकोको+	यूएनसी	परीक्षणए	1975	750
रेफकोको+	यूएनसी	परीक्षणबी	1798	750
refcocog	गूगल	रेलगाड़ी	44822	24698
refcocog	गूगल	वैल	5000	4650
refcocog	उम्द	रेलगाड़ी	42226	21899
refcocog	उम्द	वैल	2573	1300
refcocog	उम्द	परीक्षा	5023	2600

अतिरिक्त दस्तावेज़ीकरण : कोड वाले कागजात पर अन्वेषण करें
मुखपृष्ठ : https://github.com/lichengunc/refer
स्रोत कोड : tfds.datasets.ref_coco.Builder
संस्करण :
- 1.0.0 : प्रारंभिक रिलीज.
- 1.1.0 (डिफ़ॉल्ट): मास्क जोड़े गए।
डाउनलोड आकार : Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
https://github.com/lichengunc/refer में दिए गए निर्देशों का पालन करें और रेपो में निर्दिष्ट डेटा/निर्देशिका से मेल खाते हुए एनोटेशन और छवियां डाउनलोड करें।

https://cocodataset.org/#download से pycocotools और इंस्टेंस_ट्रेन2014 एनोटेशन फ़ाइल प्राप्त करने के लिए https://github.com/cocodataset/cocoapi में PythonAPI के निर्देशों का पालन करें।
अपने PythonPATH में (1) से reference.py और (2) से pycocotools दोनों जोड़ें।
Refcoco.json जनरेट करने के लिए मैन्युअल_डाउनलोड_प्रोसेस.py चलाएँ, ref_data_root , coco_annotations_file और out_file उन मानों से बदलें जहाँ आपने इन फ़ाइलों को डाउनलोड किया है / सहेजना चाहते हैं। ध्यान दें कि मैन्युअल_डाउनलोड_प्रोसेस.py टीएफडीएस रिपॉजिटरी में पाया जा सकता है।
https://cocodataset.org/#download से COCO प्रशिक्षण सेट डाउनलोड करें और इसे coco_train2014/ नामक फ़ोल्डर में चिपका दें। refcoco.json coco_train2014 के समान स्तर पर ले जाएँ।
मानक मैन्युअल डाउनलोड निर्देशों का पालन करें।

ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीप्रकार
	फीचर्सडिक्ट
कोको_एनोटेशन	अनुक्रम
coco_annotations/क्षेत्र	टेन्सर		int64
coco_annotations/bbox	बीबॉक्सफ़ीचर	(4,)	फ्लोट32
coco_annotations/id	टेन्सर		int64
कोको_एनोटेशन/लेबल	टेन्सर		int64
छवि	छवि	(कोई नहीं, कोई नहीं, 3)	uint8
छवि/आईडी	टेन्सर		int64
वस्तुओं	अनुक्रम
वस्तुएं/क्षेत्र	टेन्सर		int64
ऑब्जेक्ट/बीबॉक्स	बीबॉक्सफ़ीचर	(4,)	फ्लोट32
ऑब्जेक्ट/gt_box_index	टेन्सर		int64
ऑब्जेक्ट/आईडी	टेन्सर		int64
ऑब्जेक्ट/लेबल	टेन्सर		int64
वस्तुएं/मुखौटा	छवि	(कोई नहीं, कोई नहीं, 3)	uint8
ऑब्जेक्ट/रिफेक्स्प	अनुक्रम
ऑब्जेक्ट/रेफएक्सपी/कच्चा	मूलपाठ		डोरी
ऑब्जेक्ट/refexp/refexp_id	टेन्सर		int64

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
उद्धरण :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

Ref_coco/refcoco_unc (डिफ़ॉल्ट कॉन्फ़िगरेशन)

डेटासेट का आकार : 3.29 GiB
विभाजन :

विभाजित करना	उदाहरण
`'testA'`	750
`'testB'`	750
`'train'`	16,994
`'validation'`	1,500

चित्र ( tfds.show_examples ):

VISUALIZATION

उदाहरण ( tfds.as_dataframe ):

Ref_coco/refcoco_google

डेटासेट का आकार : 4.65 GiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	4,527
`'train'`	19,213
`'validation'`	4,559

चित्र ( tfds.show_examples ):

VISUALIZATION

उदाहरण ( tfds.as_dataframe ):

Ref_coco/refcocoplus_unc

डेटासेट का आकार : 3.29 GiB
विभाजन :

विभाजित करना	उदाहरण
`'testA'`	750
`'testB'`	750
`'train'`	16,992
`'validation'`	1,500

चित्र ( tfds.show_examples ):

VISUALIZATION

उदाहरण ( tfds.as_dataframe ):

Ref_coco/refcocog_google

डेटासेट का आकार : 4.64 GiB
विभाजन :

विभाजित करना	उदाहरण
`'train'`	24,698
`'validation'`	4,650

चित्र ( tfds.show_examples ):

VISUALIZATION

उदाहरण ( tfds.as_dataframe ):

Ref_coco/refcocog_umd

डेटासेट का आकार : 4.08 GiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	2,600
`'train'`	21,899
`'validation'`	1,300

चित्र ( tfds.show_examples ):

VISUALIZATION

उदाहरण ( tfds.as_dataframe ):