- বর্ণনা :
COCO ডেটাসেটে থাকা চিত্রগুলির উপর ভিত্তি করে 3টি রেফারিং এক্সপ্রেশন ডেটাসেটের একটি সংগ্রহ৷ একটি রেফারিং এক্সপ্রেশন হল পাঠ্যের একটি অংশ যা একটি চিত্রের একটি অনন্য বস্তুকে বর্ণনা করে। এই ডেটাসেটগুলি মানব রেটারদের COCO ডেটাসেটে বাউন্ডিং বাক্সগুলির দ্বারা চিত্রিত বস্তুগুলিকে দ্ব্যর্থিত করতে বলে সংগ্রহ করা হয়৷
RefCoco এবং RefCoco+ কাজেমজাদেহ এট আল থেকে এসেছে। 2014. RefCoco+ অভিব্যক্তি হল কঠোরভাবে উপস্থিতি ভিত্তিক বর্ণনা, যা তারা অবস্থান ভিত্তিক বর্ণনা ব্যবহার করা থেকে রেটারদের বাধা দিয়ে প্রয়োগ করেছে (যেমন, "ডান দিকের ব্যক্তি" RefCoco+ এর জন্য একটি বৈধ বিবরণ নয়)। RefCocoG মাও এট আল থেকে এসেছে। 2016, এবং টীকা প্রক্রিয়ার পার্থক্যের কারণে RefCoco এর তুলনায় বস্তুর আরও সমৃদ্ধ বিবরণ রয়েছে। বিশেষ করে, RefCoco একটি ইন্টারেক্টিভ গেম-ভিত্তিক সেটিংয়ে সংগ্রহ করা হয়েছিল, যখন RefCocoG একটি অ-ইন্টারেক্টিভ সেটিংয়ে সংগ্রহ করা হয়েছিল। গড়ে, RefCocoG-এর প্রতি এক্সপ্রেশনে 8.4 শব্দ আছে যখন RefCoco-এর 3.5 শব্দ আছে।
প্রতিটি ডেটাসেটের বিভিন্ন বিভক্ত বরাদ্দ রয়েছে যা সাধারণত কাগজপত্রে রিপোর্ট করা হয়। RefCoco এবং RefCoco+-এ "testA" এবং "testB" সেটে যথাক্রমে শুধুমাত্র মানুষ এবং শুধুমাত্র অ-মানুষ থাকে। ছবিগুলিকে বিভিন্ন ভাগে ভাগ করা হয়েছে৷ "গুগল" স্প্লিটে, অবজেক্ট, ছবি নয়, ট্রেন এবং নন-ট্রেন স্প্লিটের মধ্যে বিভাজন করা হয়। এর মানে হল যে একই চিত্রটি ট্রেন এবং বৈধতা বিভাজন উভয় ক্ষেত্রেই প্রদর্শিত হতে পারে, তবে ছবিতে উল্লেখ করা বস্তু দুটি সেটের মধ্যে আলাদা হবে। বিপরীতে, "unc" এবং "umd" ট্রেন, বৈধতা এবং পরীক্ষা বিভাজনের মধ্যে পার্টিশন চিত্রগুলিকে বিভক্ত করে। RefCocoG-এ, "google" স্প্লিটে একটি ক্যানোনিকাল টেস্ট সেট নেই, এবং বৈধতা সেটটি সাধারণত কাগজপত্রে "val*" হিসাবে রিপোর্ট করা হয়।
প্রতিটি ডেটাসেট এবং বিভক্তের পরিসংখ্যান ("রেফস" হল রেফারিং এক্সপ্রেশনের সংখ্যা এবং "ছবি" হল ছবির সংখ্যা):
ডেটাসেট | বিভাজন | বিভক্ত | refs | ছবি |
---|---|---|---|---|
refcoco | গুগল | ট্রেন | 40000 | 19213 |
refcoco | গুগল | ভাল | 5000 | 4559 |
refcoco | গুগল | পরীক্ষা | 5000 | 4527 |
refcoco | unc | ট্রেন | 42404 | 16994 |
refcoco | unc | ভাল | 3811 | 1500 |
refcoco | unc | পরীক্ষাএ | 1975 | 750 |
refcoco | unc | পরীক্ষা বি | 1810 | 750 |
refcoco+ | unc | ট্রেন | 42278 | 16992 |
refcoco+ | unc | ভাল | 3805 | 1500 |
refcoco+ | unc | পরীক্ষাএ | 1975 | 750 |
refcoco+ | unc | পরীক্ষা বি | 1798 | 750 |
refcocog | গুগল | ট্রেন | 44822 | 24698 |
refcocog | গুগল | ভাল | 5000 | 4650 |
refcocog | umd | ট্রেন | 42226 | 21899 |
refcocog | umd | ভাল | 2573 | 1300 |
refcocog | umd | পরীক্ষা | 5023 | 2600 |
হোমপেজ : https://github.com/lichengunc/refer
সোর্স কোড :
tfds.datasets.ref_coco.Builder
সংস্করণ :
-
1.0.0
: প্রাথমিক প্রকাশ। -
1.1.0
(ডিফল্ট): মাস্ক যোগ করা হয়েছে।
-
ডাউনলোড আকার :
Unknown size
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে
download_config.manual_dir
এ ম্যানুয়ালি উৎস ডেটা ডাউনলোড করতে হবে (~/tensorflow_datasets/downloads/manual/
এ ডিফল্ট):https://github.com/lichengunc/refer- এ দেওয়া নির্দেশাবলী অনুসরণ করুন এবং রেপোতে নির্দিষ্ট করা ডেটা/ ডিরেক্টরির সাথে মিলে টীকা এবং ছবি ডাউনলোড করুন।
pycocotools পেতে https://github.com/cocodataset/cocoapi- এ PythonAPI-এর নির্দেশাবলী অনুসরণ করুন এবং https://cocodataset.org/#download থেকে instances_train2014 টীকা ফাইল
আপনার PYTHONPATH-এ (1) থেকে refer.py এবং (2) থেকে pycocotools উভয়ই যোগ করুন।
refcoco.json তৈরি করতে manual_download_process.py চালান,
ref_data_root
,coco_annotations_file
, এবংout_file
প্রতিস্থাপন করুন যেখানে আপনি এই ফাইলগুলি ডাউনলোড করেছেন / সংরক্ষণ করতে চান তার সাথে সম্পর্কিত মানগুলি দিয়ে। মনে রাখবেন যে manual_download_process.py টিএফডিএস সংগ্রহস্থলে পাওয়া যাবে।https://cocodataset.org/#download থেকে COCO প্রশিক্ষণ সেটটি ডাউনলোড করুন এবং
coco_train2014/
নামে একটি ফোল্ডারে আটকে দিন।refcoco.json
coco_train2014
এর মতো একই স্তরে নিয়ে যান।স্ট্যান্ডার্ড ম্যানুয়াল ডাউনলোড নির্দেশাবলী অনুসরণ করুন.
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
কোকো_টীকা | ক্রম | |||
কোকো_টীকা/ক্ষেত্র | টেনসর | int64 | ||
coco_annotations/bbox | বিবক্স ফিচার | (৪,) | float32 | |
coco_annotations/id | টেনসর | int64 | ||
কোকো_টীকা/লেবেল | টেনসর | int64 | ||
ইমেজ | ছবি | (কোনটিই নয়, 3) | uint8 | |
ছবি/আইডি | টেনসর | int64 | ||
বস্তু | ক্রম | |||
বস্তু/ক্ষেত্র | টেনসর | int64 | ||
বস্তু/bbox | বিবক্স ফিচার | (৪,) | float32 | |
বস্তু/gt_box_index | টেনসর | int64 | ||
বস্তু/আইডি | টেনসর | int64 | ||
বস্তু/লেবেল | টেনসর | int64 | ||
বস্তু/মাস্ক | ছবি | (কোনটিই নয়, 3) | uint8 | |
অবজেক্ট/রিফেক্স | ক্রম | |||
অবজেক্ট/রিফেক্স/কাচা | পাঠ্য | স্ট্রিং | ||
objects/refexp/refexp_id | টেনসর | int64 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
উদ্ধৃতি :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (ডিফল্ট কনফিগারেশন)
ডেটাসেটের আকার :
3.29 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1,500 |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
ref_coco/refcoco_google
ডেটাসেটের আকার :
4.65 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
ডেটাসেটের আকার :
3.29 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1,500 |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
ref_coco/refcocog_google
ডেটাসেটের আকার :
4.64 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
ref_coco/refcocog_umd
ডেটাসেটের আকার :
4.08 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,600 |
'train' | 21,899 |
'validation' | 1,300 |
- চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):