- বর্ণনা :
Google RefExp ডেটাসেট হল ইমেজে বস্তুর পাঠ্য বিবরণের একটি সংগ্রহ যা সর্বজনীনভাবে উপলব্ধ MS-COCO ডেটাসেটের উপর তৈরি করে। যেখানে MS-COCO-তে ছবির ক্যাপশনগুলি সম্পূর্ণ চিত্রের জন্য প্রযোজ্য, এই ডেটাসেটটি পাঠ্যের বর্ণনাগুলিতে ফোকাস করে যা একটি চিত্রের মধ্যে একটি একক বস্তু বা অঞ্চলকে অনন্যভাবে সনাক্ত করতে দেয়। এই কাগজে আরও বিশদ দেখুন: দ্ব্যর্থহীন বস্তুর বিবরণের জেনারেশন এবং কম্প্রিহেনশন।
সোর্স কোড :
tfds.vision_language.gref.Gref
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
4.60 GiB
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
COCO এর সাথে সারিবদ্ধ বিন্যাসে ডেটা ডাউনলোড এবং প্রি-প্রসেস করতে https://github.com/mjhucla/Google_Refexp_toolbox- এ নির্দেশাবলী অনুসরণ করুন। ডিরেক্টরিটিতে 2টি ফাইল এবং একটি ফোল্ডার রয়েছে:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/
coco_train2014 ফোল্ডারে COCO 2014 প্রশিক্ষণের সমস্ত ছবি রয়েছে৷
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ইমেজ | ছবি | (কোনটিই নয়, 3) | uint8 | |
ছবি/আইডি | টেনসর | int64 | ||
বস্তু | ক্রম | |||
বস্তু/ক্ষেত্র | টেনসর | int64 | ||
বস্তু/bbox | বিবক্স ফিচার | (৪,) | float32 | |
বস্তু/আইডি | টেনসর | int64 | ||
বস্তু/লেবেল | টেনসর | int64 | ||
বস্তু/লেবেল_নাম | ক্লাসলেবেল | int64 | ||
অবজেক্ট/রিফেক্স | ক্রম | |||
অবজেক্ট/রিফেক্স/কাচা | পাঠ্য | স্ট্রিং | ||
অবজেক্ট/রিফেক্স/রেফারেন্ট | পাঠ্য | স্ট্রিং | ||
objects/refexp/refexp_id | টেনসর | int64 | ||
অবজেক্ট/রিফেক্স/টোকেন | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ):
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}