gref

  • الوصف :

مجموعة بيانات Google RefExp عبارة عن مجموعة من الأوصاف النصية للكائنات في الصور والتي تعتمد على مجموعة بيانات MS-COCO المتاحة للجمهور. في حين أن التسميات التوضيحية للصورة في MS-COCO تنطبق على الصورة بأكملها ، تركز مجموعة البيانات هذه على أوصاف النص التي تسمح للشخص بتحديد كائن أو منطقة واحدة بشكل فريد داخل الصورة. اطلع على مزيد من التفاصيل في هذه الورقة: إنشاء وفهم أوصاف كائن لا لبس فيها.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية : https://github.com/mjhucla/Google_Refexp_toolbox

  • كود المصدر : tfds.vision_language.gref.Gref

  • إصدارات :

    • 1.0.0 (افتراضي): الإصدار الأولي.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 4.60 GiB

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    اتبع التعليمات الموجودة على https://github.com/mjhucla/Google_Refexp_toolbox لتنزيل البيانات ومعالجتها مسبقًا بتنسيق متوافق مع COCO. يحتوي الدليل على ملفين ومجلد واحد:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014 /

يحتوي مجلد coco_train2014 على جميع صور تدريب COCO 2014.

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 24698
'validation' 4650
  • هيكل الميزة :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
صورة صورة (لا شيء ، لا شيء ، 3) uint8
الصورة / معرف موتر int64
أشياء تسلسل
الأشياء / المنطقة موتر int64
كائنات / bbox ميزة BBox (4 ،) تعويم 32
الكائنات / معرف موتر int64
الكائنات / التسمية موتر int64
الكائنات / label_name ClassLabel int64
كائنات / refexp تسلسل
كائنات / refexp / خام نص سلسلة
كائنات / refexp / مرجعية نص سلسلة
كائنات / refexp / refexp_id موتر int64
الكائنات / refexp / الرموز المميزة تسلسل (نص) (لا أحد،) سلسلة

التصور

  • الاقتباس :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}