ref_coco

  • বর্ণনা :

COCO ডেটাসেটে থাকা চিত্রগুলির উপর ভিত্তি করে 3টি রেফারিং এক্সপ্রেশন ডেটাসেটের একটি সংগ্রহ৷ একটি রেফারিং এক্সপ্রেশন হল পাঠ্যের একটি অংশ যা একটি চিত্রের একটি অনন্য বস্তুকে বর্ণনা করে। এই ডেটাসেটগুলি মানব রেটারদের COCO ডেটাসেটে বাউন্ডিং বাক্সগুলির দ্বারা চিত্রিত বস্তুগুলিকে দ্ব্যর্থিত করতে বলে সংগ্রহ করা হয়৷

RefCoco এবং RefCoco+ কাজেমজাদেহ এট আল থেকে এসেছে। 2014. RefCoco+ অভিব্যক্তি হল কঠোরভাবে উপস্থিতি ভিত্তিক বর্ণনা, যা তারা অবস্থান ভিত্তিক বর্ণনা ব্যবহার করা থেকে রেটারদের বাধা দিয়ে প্রয়োগ করেছে (যেমন, "ডান দিকের ব্যক্তি" RefCoco+ এর জন্য একটি বৈধ বিবরণ নয়)। RefCocoG মাও এট আল থেকে এসেছে। 2016, এবং টীকা প্রক্রিয়ার পার্থক্যের কারণে RefCoco এর তুলনায় বস্তুর আরও সমৃদ্ধ বিবরণ রয়েছে। বিশেষ করে, RefCoco একটি ইন্টারেক্টিভ গেম-ভিত্তিক সেটিংয়ে সংগ্রহ করা হয়েছিল, যখন RefCocoG একটি অ-ইন্টারেক্টিভ সেটিংয়ে সংগ্রহ করা হয়েছিল। গড়ে, RefCocoG-এর প্রতি এক্সপ্রেশনে 8.4 শব্দ আছে যখন RefCoco-এর 3.5 শব্দ আছে।

প্রতিটি ডেটাসেটের বিভিন্ন বিভক্ত বরাদ্দ রয়েছে যা সাধারণত কাগজপত্রে রিপোর্ট করা হয়। RefCoco এবং RefCoco+-এ "testA" এবং "testB" সেটে যথাক্রমে শুধুমাত্র মানুষ এবং শুধুমাত্র অ-মানুষ থাকে। ছবিগুলিকে বিভিন্ন ভাগে ভাগ করা হয়েছে৷ "গুগল" স্প্লিটে, অবজেক্ট, ছবি নয়, ট্রেন এবং নন-ট্রেন স্প্লিটের মধ্যে বিভাজন করা হয়। এর মানে হল যে একই চিত্রটি ট্রেন এবং বৈধতা বিভাজন উভয় ক্ষেত্রেই প্রদর্শিত হতে পারে, তবে ছবিতে উল্লেখ করা বস্তু দুটি সেটের মধ্যে আলাদা হবে। বিপরীতে, "unc" এবং "umd" ট্রেন, বৈধতা এবং পরীক্ষা বিভাজনের মধ্যে পার্টিশন চিত্রগুলিকে বিভক্ত করে। RefCocoG-এ, "google" স্প্লিটে একটি ক্যানোনিকাল টেস্ট সেট নেই, এবং বৈধতা সেটটি সাধারণত কাগজপত্রে "val*" হিসাবে রিপোর্ট করা হয়।

প্রতিটি ডেটাসেট এবং বিভক্তের পরিসংখ্যান ("রেফস" হল রেফারিং এক্সপ্রেশনের সংখ্যা এবং "ছবি" হল ছবির সংখ্যা):

ডেটাসেট বিভাজন বিভক্ত refs ছবি
refcoco গুগল ট্রেন 40000 19213
refcoco গুগল ভাল 5000 4559
refcoco গুগল পরীক্ষা 5000 4527
refcoco unc ট্রেন 42404 16994
refcoco unc ভাল 3811 1500
refcoco unc পরীক্ষাএ 1975 750
refcoco unc পরীক্ষা বি 1810 750
refcoco+ unc ট্রেন 42278 16992
refcoco+ unc ভাল 3805 1500
refcoco+ unc পরীক্ষাএ 1975 750
refcoco+ unc পরীক্ষা বি 1798 750
refcocog গুগল ট্রেন 44822 24698
refcocog গুগল ভাল 5000 4650
refcocog umd ট্রেন 42226 21899
refcocog umd ভাল 2573 1300
refcocog umd পরীক্ষা 5023 2600
  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://github.com/lichengunc/refer

  • সোর্স কোড : tfds.datasets.ref_coco.Builder

  • সংস্করণ :

    • 1.0.0 : প্রাথমিক প্রকাশ।
    • 1.1.0 (ডিফল্ট): মাস্ক যোগ করা হয়েছে।
  • ডাউনলোড আকার : Unknown size

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে download_config.manual_dir এ ম্যানুয়ালি উৎস ডেটা ডাউনলোড করতে হবে ( ~/tensorflow_datasets/downloads/manual/ এ ডিফল্ট):

  • https://github.com/lichengunc/refer- এ দেওয়া নির্দেশাবলী অনুসরণ করুন এবং রেপোতে নির্দিষ্ট করা ডেটা/ ডিরেক্টরির সাথে মিলে টীকা এবং ছবি ডাউনলোড করুন।

  1. pycocotools পেতে https://github.com/cocodataset/cocoapi- এ PythonAPI-এর নির্দেশাবলী অনুসরণ করুন এবং https://cocodataset.org/#download থেকে instances_train2014 টীকা ফাইল

  2. আপনার PYTHONPATH-এ (1) থেকে refer.py এবং (2) থেকে pycocotools উভয়ই যোগ করুন।

  3. refcoco.json তৈরি করতে manual_download_process.py চালান, ref_data_root , coco_annotations_file , এবং out_file প্রতিস্থাপন করুন যেখানে আপনি এই ফাইলগুলি ডাউনলোড করেছেন / সংরক্ষণ করতে চান তার সাথে সম্পর্কিত মানগুলি দিয়ে। মনে রাখবেন যে manual_download_process.py টিএফডিএস সংগ্রহস্থলে পাওয়া যাবে।

  4. https://cocodataset.org/#download থেকে COCO প্রশিক্ষণ সেটটি ডাউনলোড করুন এবং coco_train2014/ নামে একটি ফোল্ডারে আটকে দিন। refcoco.json coco_train2014 এর মতো একই স্তরে নিয়ে যান।

  5. স্ট্যান্ডার্ড ম্যানুয়াল ডাউনলোড নির্দেশাবলী অনুসরণ করুন.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
কোকো_টীকা ক্রম
কোকো_টীকা/ক্ষেত্র টেনসর int64
coco_annotations/bbox বিবক্স ফিচার (৪,) float32
coco_annotations/id টেনসর int64
কোকো_টীকা/লেবেল টেনসর int64
ইমেজ ছবি (কোনটিই নয়, 3) uint8
ছবি/আইডি টেনসর int64
বস্তু ক্রম
বস্তু/ক্ষেত্র টেনসর int64
বস্তু/bbox বিবক্স ফিচার (৪,) float32
বস্তু/gt_box_index টেনসর int64
বস্তু/আইডি টেনসর int64
বস্তু/লেবেল টেনসর int64
বস্তু/মাস্ক ছবি (কোনটিই নয়, 3) uint8
অবজেক্ট/রিফেক্স ক্রম
অবজেক্ট/রিফেক্স/কাচা পাঠ্য স্ট্রিং
objects/refexp/refexp_id টেনসর int64
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • উদ্ধৃতি :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (ডিফল্ট কনফিগারেশন)

  • ডেটাসেটের আকার : 3.29 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

ভিজ্যুয়ালাইজেশন

ref_coco/refcoco_google

  • ডেটাসেটের আকার : 4.65 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,527
'train' 19,213
'validation' 4,559

ভিজ্যুয়ালাইজেশন

ref_coco/refcocoplus_unc

  • ডেটাসেটের আকার : 3.29 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

ভিজ্যুয়ালাইজেশন

ref_coco/refcocog_google

  • ডেটাসেটের আকার : 4.64 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 24,698
'validation' 4,650

ভিজ্যুয়ালাইজেশন

ref_coco/refcocog_umd

  • ডেটাসেটের আকার : 4.08 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,600
'train' 21,899
'validation' 1,300

ভিজ্যুয়ালাইজেশন