- توضیحات :
مجموعه داده Google RefExp مجموعه ای از توصیفات متنی اشیاء در تصاویر است که بر اساس مجموعه داده MS-COCO در دسترس عموم است. در حالی که زیرنویسهای تصویر در MS-COCO برای کل تصویر اعمال میشوند، این مجموعه داده بر روی توضیحات متنی تمرکز دارد که به فرد امکان میدهد به طور منحصربهفردی یک شی یا منطقه را در یک تصویر شناسایی کند. جزئیات بیشتر را در این مقاله ببینید: تولید و درک توضیحات اشیاء بدون ابهام.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/mjhucla/Google_Refexp_toolbox
کد منبع :
tfds.vision_language.gref.Gref
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
4.60 GiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
دستورالعملهای https://github.com/mjhucla/Google_Refexp_toolbox را برای دانلود و پیش پردازش دادهها در قالب تراز با COCO دنبال کنید. دایرکتوری شامل 2 فایل و یک پوشه است:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/
پوشه coco_train2014 شامل تمامی تصاویر آموزشی COCO 2014 می باشد.
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 24698 |
'validation' | 4650 |
- ساختار ویژگی :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
تصویر / شناسه | تانسور | int64 | ||
اشیاء | توالی | |||
اشیاء/منطقه | تانسور | int64 | ||
اشیاء/bbox | ویژگی BBox | (4،) | float32 | |
اشیاء / شناسه | تانسور | int64 | ||
اشیاء/برچسب | تانسور | int64 | ||
اشیاء/label_name | ClassLabel | int64 | ||
اشیاء/refexp | توالی | |||
اشیاء/refexp/raw | متن | رشته | ||
اشیاء/refexp/مرجع | متن | رشته | ||
objects/refexp/refexp_id | تانسور | int64 | ||
اشیاء/refexp/tokens | دنباله (متن) | (هیچ یک،) | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}