जी आर ई एफ

  • विवरण :

Google RefExp डेटासेट छवियों में वस्तुओं के टेक्स्ट विवरण का एक संग्रह है जो सार्वजनिक रूप से उपलब्ध MS-COCO डेटासेट पर निर्मित होता है। जबकि MS-COCO में इमेज कैप्शन पूरी इमेज पर लागू होता है, यह डेटासेट टेक्स्ट डिस्क्रिप्शन पर केंद्रित होता है जो किसी इमेज के भीतर किसी एक ऑब्जेक्ट या क्षेत्र को विशिष्ट रूप से पहचानने की अनुमति देता है। इस पेपर में अधिक विवरण देखें: असंदिग्ध वस्तु विवरणों की उत्पत्ति और समझ।

  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://github.com/mjhucla/Google_Refexp_toolbox

  • स्रोत कोड : tfds.vision_language.gref.Gref

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : Unknown size

  • डेटासेट का आकार : 4.60 GiB

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    COCO के साथ संरेखित प्रारूप में डेटा को डाउनलोड और प्री-प्रोसेस करने के लिए https://github.com/mjhucla/Google_Refexp_toolbox पर दिए गए निर्देशों का पालन करें। निर्देशिका में 2 फ़ाइलें और एक फ़ोल्डर है:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • कोको_ट्रेन2014/

Coco_train2014 फ़ोल्डर में सभी COCO 2014 प्रशिक्षण चित्र शामिल हैं।

विभाजित करना उदाहरण
'train' 24,698
'validation' 4,650
  • फ़ीचर संरचना :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि/आईडी टेन्सर int64
वस्तुओं क्रम
वस्तुओं / क्षेत्र टेन्सर int64
ऑब्जेक्ट्स/बीबॉक्स बीबॉक्स फीचर (4,) फ्लोट32
वस्तुओं/आईडी टेन्सर int64
ऑब्जेक्ट्स / लेबल टेन्सर int64
ऑब्जेक्ट्स/लेबल_नाम क्लासलेबल int64
ऑब्जेक्ट्स/रेफेक्स क्रम
ऑब्जेक्ट्स/रेफएक्सपी/रॉ मूलपाठ डोरी
ऑब्जेक्ट्स/रेफेक्स/संदर्भ मूलपाठ डोरी
ऑब्जेक्ट्स/रेफएक्सपी/refexp_id टेन्सर int64
ऑब्जेक्ट्स/रेफएक्सपी/टोकन अनुक्रम (पाठ) (कोई भी नहीं,) डोरी

VISUALIZATION

  • उद्धरण :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}