يدعم TFDS الآن تنسيق الكرواسون 🥐 ! اقرأ الوثائق لمعرفة المزيد.

تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

ref_coco

وصف :

مجموعة من 3 مجموعات بيانات تعبيرية مرجعية تعتمد على الصور في مجموعة بيانات COCO. التعبير المرجعي هو جزء من النص يصف كائنًا فريدًا في الصورة. يتم جمع مجموعات البيانات هذه من خلال مطالبة المقيمين البشريين بإزالة الغموض عن الكائنات المحددة بواسطة المربعات المحيطة في مجموعة بيانات COCO.

RefCoco وRefCoco+ من كاظم زاده وآخرون. 2014. تعبيرات RefCoco+ هي أوصاف تعتمد على المظهر بشكل صارم، والتي يتم فرضها عن طريق منع المقيمين من استخدام الأوصاف المستندة إلى الموقع (على سبيل المثال، "الشخص الموجود على اليمين" ليس وصفًا صالحًا لـ RefCoco+). RefCocoG من ماو وآخرون. 2016، ويحتوي على وصف أكثر ثراءً للكائنات مقارنة بـ RefCoco بسبب الاختلافات في عملية التعليق التوضيحي. على وجه الخصوص، تم جمع RefCoco في بيئة تفاعلية تعتمد على الألعاب، بينما تم جمع RefCocoG في بيئة غير تفاعلية. في المتوسط، يحتوي RefCocoG على 8.4 كلمة لكل تعبير بينما يحتوي RefCoco على 3.5 كلمة.

تحتوي كل مجموعة بيانات على مخصصات مقسمة مختلفة والتي يتم عادةً الإبلاغ عنها جميعًا في الأوراق. تحتوي مجموعات "testA" و"testB" في RefCoco وRefCoco+ على أشخاص فقط وغير أشخاص فقط على التوالي. يتم تقسيم الصور إلى أقسام مختلفة. في تقسيم "google"، يتم تقسيم الكائنات، وليس الصور، بين تقسيمات القطار وغير القطارات. وهذا يعني أن نفس الصورة يمكن أن تظهر في كل من قسمي التدريب والتحقق من الصحة، ولكن الكائنات المشار إليها في الصورة ستكون مختلفة بين المجموعتين. في المقابل، يقوم "unc" و"umd" بتقسيم الصور بين القطار والتحقق من الصحة وتقسيم الاختبار. في RefCocoG، لا يحتوي قسم "google" على مجموعة اختبار أساسية، وعادةً ما يتم الإبلاغ عن مجموعة التحقق من الصحة في الأوراق باسم "val*".

إحصائيات لكل مجموعة بيانات وتقسيم ("المراجع" هو عدد التعبيرات المرجعية، و"الصور" هي عدد الصور):

dataset	تقسيم	ينقسم	المراجع	الصور
com.refcoco	جوجل	يدرب	40000	19213
com.refcoco	جوجل	فال	5000	4559
com.refcoco	جوجل	امتحان	5000	4527
com.refcoco	unc	يدرب	42404	16994
com.refcoco	unc	فال	3811	1500
com.refcoco	unc	اختبارأ	1975	750
com.refcoco	unc	اختبار ب	1810	750
ريفيكوكو+	unc	يدرب	42278	16992
ريفيكوكو+	unc	فال	3805	1500
ريفيكوكو+	unc	اختبارأ	1975	750
ريفيكوكو+	unc	اختبار ب	1798	750
com.refcocog	جوجل	يدرب	44822	24698
com.refcocog	جوجل	فال	5000	4650
com.refcocog	أمد	يدرب	42226	21899
com.refcocog	أمد	فال	2573	1300
com.refcocog	أمد	امتحان	5023	2600

وثائق إضافية : استكشف الأوراق ذات الكود
الصفحة الرئيسية : https://github.com/lichengunc/refer
كود المصدر : tfds.datasets.ref_coco.Builder
الإصدارات :
- 1.0.0 : الإصدار الأولي.
- 1.1.0 (افتراضي): تمت إضافة الأقنعة.
حجم التحميل : Unknown size
تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى download_config.manual_dir (الإعداد الافتراضي هو ~/tensorflow_datasets/downloads/manual/ ):
اتبع الإرشادات الموجودة في https://github.com/lichengunc/refer وقم بتنزيل التعليقات التوضيحية والصور، بما يتوافق مع دليل البيانات/ المحدد في الريبو.

اتبع تعليمات PythonAPI في https://github.com/cocodataset/cocoapi للحصول على pycocotools وملف التعليقات التوضيحيةins_train2014 من https://cocodataset.org/#download
أضف كلا من Refer.py من (1) وpycocotools من (2) إلى PYTHONPATH الخاص بك.
قم بتشغيل manual_download_process.py لإنشاء refcoco.json، واستبدال ref_data_root و coco_annotations_file و out_file بالقيم المقابلة للمكان الذي قمت بتنزيله/تريد حفظ هذه الملفات فيه. لاحظ أنه يمكن العثور على manual_download_process.py في مستودع TFDS.
قم بتنزيل مجموعة تدريب COCO من https://cocodataset.org/#download وألصقها في مجلد يسمى coco_train2014/ . انقل refcoco.json إلى نفس مستوى coco_train2014 .
اتبع تعليمات التنزيل اليدوية القياسية.

التخزين المؤقت التلقائي ( الوثائق ): لا
هيكل الميزة :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع D
	المميزاتDict
coco_annotations	تسلسل
coco_annotations/area	الموتر		int64
coco_annotations/bbox	ميزة BBox	(4،)	float32
coco_annotations/id	الموتر		int64
coco_annotations/label	الموتر		int64
صورة	صورة	(لا شيء، لا شيء، 3)	uint8
الصورة/المعرف	الموتر		int64
أشياء	تسلسل
الكائنات / المنطقة	الموتر		int64
الكائنات/bbox	ميزة BBox	(4،)	float32
objects/gt_box_index	الموتر		int64
الكائنات/المعرف	الموتر		int64
الكائنات/التسمية	الموتر		int64
الأشياء/القناع	صورة	(لا شيء، لا شيء، 3)	uint8
الكائنات/refexp	تسلسل
الكائنات/refexp/raw	نص		خيط
الكائنات/refexp/refexp_id	الموتر		int64

المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None
الاقتباس :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (التكوين الافتراضي)

حجم مجموعة البيانات : 3.29 GiB
الإنشقاقات :

ينقسم	أمثلة
`'testA'`	750
`'testB'`	750
`'train'`	16,994
`'validation'`	1500

الشكل ( tfds.show_examples ):

التصور

أمثلة ( tfds.as_dataframe ):

ref_coco/refcoco_google

حجم مجموعة البيانات : 4.65 GiB
الإنشقاقات :

ينقسم	أمثلة
`'test'`	4,527
`'train'`	19,213
`'validation'`	4,559

الشكل ( tfds.show_examples ):

التصور

أمثلة ( tfds.as_dataframe ):

ref_coco/refcocoplus_unc

حجم مجموعة البيانات : 3.29 GiB
الإنشقاقات :

ينقسم	أمثلة
`'testA'`	750
`'testB'`	750
`'train'`	16,992
`'validation'`	1500

الشكل ( tfds.show_examples ):

التصور

أمثلة ( tfds.as_dataframe ):

ref_coco/refcocog_google

حجم مجموعة البيانات : 4.64 GiB
الإنشقاقات :

ينقسم	أمثلة
`'train'`	24,698
`'validation'`	4,650

الشكل ( tfds.show_examples ):

التصور

أمثلة ( tfds.as_dataframe ):

ref_coco/refcocog_umd

حجم مجموعة البيانات : 4.08 GiB
الإنشقاقات :

ينقسم	أمثلة
`'test'`	2600
`'train'`	21,899
`'validation'`	1300

الشكل ( tfds.show_examples ):

التصور

أمثلة ( tfds.as_dataframe ):