เกรฟ

  • คำอธิบาย :

ชุดข้อมูล Google RefExp คือชุดของคำอธิบายที่เป็นข้อความของวัตถุในรูปภาพซึ่งสร้างขึ้นจากชุดข้อมูล MS-COCO ที่เผยแพร่ต่อสาธารณะ ในขณะที่คำบรรยายภาพใน MS-COCO นำไปใช้กับภาพทั้งหมด ชุดข้อมูลนี้เน้นที่คำอธิบายข้อความที่ช่วยให้สามารถระบุวัตถุหรือภูมิภาคเดียวภายในภาพได้อย่างไม่ซ้ำกัน ดูรายละเอียดเพิ่มเติมในเอกสารนี้: การสร้างและความเข้าใจคำอธิบายวัตถุที่ไม่คลุมเครือ

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/mjhucla/Google_Refexp_toolbox

  • รหัสที่มา : tfds.vision_language.gref.Gref

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 4.60 GiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ทำตามคำแนะนำที่ https://github.com/mjhucla/Google_Refexp_toolbox เพื่อดาวน์โหลดและประมวลผลข้อมูลล่วงหน้าในรูปแบบที่สอดคล้องกับ COCO ไดเร็กทอรีประกอบด้วย 2 ไฟล์และหนึ่งโฟลเดอร์:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

โฟลเดอร์ coco_train2014 มีรูปภาพการฝึกอบรม COCO 2014 ทั้งหมด

แยก ตัวอย่าง
'train' 24,698
'validation' 4,650
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
รูปภาพ/รหัส เทนเซอร์ int64
วัตถุ ลำดับ
วัตถุ/พื้นที่ เทนเซอร์ int64
วัตถุ/bbox คุณสมบัติ BBox (4,) ลอย32
วัตถุ/รหัส เทนเซอร์ int64
วัตถุ/ฉลาก เทนเซอร์ int64
วัตถุ/label_name ป้ายกำกับคลาส int64
วัตถุ/refexp ลำดับ
วัตถุ / refexp / ดิบ ข้อความ สตริง
วัตถุ / refexp / อ้างอิง ข้อความ สตริง
วัตถุ/refexp/refexp_id เทนเซอร์ int64
วัตถุ/refexp/โทเค็น ลำดับ (ข้อความ) (ไม่มี,) สตริง

การสร้างภาพ

  • การอ้างอิง :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}