- وصف :
مجموعة من 3 مجموعات بيانات تعبيرية مرجعية تعتمد على الصور في مجموعة بيانات COCO. التعبير المرجعي هو جزء من النص يصف كائنًا فريدًا في الصورة. يتم جمع مجموعات البيانات هذه من خلال مطالبة المقيمين البشريين بإزالة الغموض عن الكائنات المحددة بواسطة المربعات المحيطة في مجموعة بيانات COCO.
RefCoco وRefCoco+ من كاظم زاده وآخرون. 2014. تعبيرات RefCoco+ هي أوصاف تعتمد على المظهر بشكل صارم، والتي يتم فرضها عن طريق منع المقيمين من استخدام الأوصاف المستندة إلى الموقع (على سبيل المثال، "الشخص الموجود على اليمين" ليس وصفًا صالحًا لـ RefCoco+). RefCocoG من ماو وآخرون. 2016، ويحتوي على وصف أكثر ثراءً للكائنات مقارنة بـ RefCoco بسبب الاختلافات في عملية التعليق التوضيحي. على وجه الخصوص، تم جمع RefCoco في بيئة تفاعلية تعتمد على الألعاب، بينما تم جمع RefCocoG في بيئة غير تفاعلية. في المتوسط، يحتوي RefCocoG على 8.4 كلمة لكل تعبير بينما يحتوي RefCoco على 3.5 كلمة.
تحتوي كل مجموعة بيانات على مخصصات مقسمة مختلفة والتي يتم عادةً الإبلاغ عنها جميعًا في الأوراق. تحتوي مجموعات "testA" و"testB" في RefCoco وRefCoco+ على أشخاص فقط وغير أشخاص فقط على التوالي. يتم تقسيم الصور إلى أقسام مختلفة. في تقسيم "google"، يتم تقسيم الكائنات، وليس الصور، بين تقسيمات القطار وغير القطارات. وهذا يعني أن نفس الصورة يمكن أن تظهر في كل من قسمي التدريب والتحقق من الصحة، ولكن الكائنات المشار إليها في الصورة ستكون مختلفة بين المجموعتين. في المقابل، يقوم "unc" و"umd" بتقسيم الصور بين القطار والتحقق من الصحة وتقسيم الاختبار. في RefCocoG، لا يحتوي قسم "google" على مجموعة اختبار أساسية، وعادةً ما يتم الإبلاغ عن مجموعة التحقق من الصحة في الأوراق باسم "val*".
إحصائيات لكل مجموعة بيانات وتقسيم ("المراجع" هو عدد التعبيرات المرجعية، و"الصور" هي عدد الصور):
dataset | تقسيم | ينقسم | المراجع | الصور |
---|---|---|---|---|
com.refcoco | جوجل | يدرب | 40000 | 19213 |
com.refcoco | جوجل | فال | 5000 | 4559 |
com.refcoco | جوجل | امتحان | 5000 | 4527 |
com.refcoco | unc | يدرب | 42404 | 16994 |
com.refcoco | unc | فال | 3811 | 1500 |
com.refcoco | unc | اختبارأ | 1975 | 750 |
com.refcoco | unc | اختبار ب | 1810 | 750 |
ريفيكوكو+ | unc | يدرب | 42278 | 16992 |
ريفيكوكو+ | unc | فال | 3805 | 1500 |
ريفيكوكو+ | unc | اختبارأ | 1975 | 750 |
ريفيكوكو+ | unc | اختبار ب | 1798 | 750 |
com.refcocog | جوجل | يدرب | 44822 | 24698 |
com.refcocog | جوجل | فال | 5000 | 4650 |
com.refcocog | أمد | يدرب | 42226 | 21899 |
com.refcocog | أمد | فال | 2573 | 1300 |
com.refcocog | أمد | امتحان | 5023 | 2600 |
وثائق إضافية : استكشف الأوراق ذات الكود
الصفحة الرئيسية : https://github.com/lichengunc/refer
كود المصدر :
tfds.datasets.ref_coco.Builder
الإصدارات :
-
1.0.0
: الإصدار الأولي. -
1.1.0
(افتراضي): تمت إضافة الأقنعة.
-
حجم التحميل :
Unknown size
تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعداد الافتراضي هو~/tensorflow_datasets/downloads/manual/
):اتبع الإرشادات الموجودة في https://github.com/lichengunc/refer وقم بتنزيل التعليقات التوضيحية والصور، بما يتوافق مع دليل البيانات/ المحدد في الريبو.
اتبع تعليمات PythonAPI في https://github.com/cocodataset/cocoapi للحصول على pycocotools وملف التعليقات التوضيحيةins_train2014 من https://cocodataset.org/#download
أضف كلا من Refer.py من (1) وpycocotools من (2) إلى PYTHONPATH الخاص بك.
قم بتشغيل manual_download_process.py لإنشاء refcoco.json، واستبدال
ref_data_root
وcoco_annotations_file
وout_file
بالقيم المقابلة للمكان الذي قمت بتنزيله/تريد حفظ هذه الملفات فيه. لاحظ أنه يمكن العثور على manual_download_process.py في مستودع TFDS.قم بتنزيل مجموعة تدريب COCO من https://cocodataset.org/#download وألصقها في مجلد يسمى
coco_train2014/
. انقلrefcoco.json
إلى نفس مستوىcoco_train2014
.اتبع تعليمات التنزيل اليدوية القياسية.
التخزين المؤقت التلقائي ( الوثائق ): لا
هيكل الميزة :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
coco_annotations | تسلسل | |||
coco_annotations/area | الموتر | int64 | ||
coco_annotations/bbox | ميزة BBox | (4،) | float32 | |
coco_annotations/id | الموتر | int64 | ||
coco_annotations/label | الموتر | int64 | ||
صورة | صورة | (لا شيء، لا شيء، 3) | uint8 | |
الصورة/المعرف | الموتر | int64 | ||
أشياء | تسلسل | |||
الكائنات / المنطقة | الموتر | int64 | ||
الكائنات/bbox | ميزة BBox | (4،) | float32 | |
objects/gt_box_index | الموتر | int64 | ||
الكائنات/المعرف | الموتر | int64 | ||
الكائنات/التسمية | الموتر | int64 | ||
الأشياء/القناع | صورة | (لا شيء، لا شيء، 3) | uint8 | |
الكائنات/refexp | تسلسل | |||
الكائنات/refexp/raw | نص | خيط | ||
الكائنات/refexp/refexp_id | الموتر | int64 |
المفاتيح الخاضعة للإشراف (راجع
as_supervised
doc ):None
الاقتباس :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (التكوين الافتراضي)
حجم مجموعة البيانات :
3.29 GiB
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1500 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
ref_coco/refcoco_google
حجم مجموعة البيانات :
4.65 GiB
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
حجم مجموعة البيانات :
3.29 GiB
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1500 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
ref_coco/refcocog_google
حجم مجموعة البيانات :
4.64 GiB
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
ref_coco/refcocog_umd
حجم مجموعة البيانات :
4.08 GiB
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 2600 |
'train' | 21,899 |
'validation' | 1300 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):