gref

Açıklama :

Google RefExp veri kümesi, herkese açık MS-COCO veri kümesini temel alan, resimlerdeki nesnelerin metin açıklamalarından oluşan bir koleksiyondur. MS-COCO'daki resim alt yazıları görüntünün tamamı için geçerliyken, bu veri kümesi, bir kişinin bir görüntü içindeki tek bir nesneyi veya bölgeyi benzersiz bir şekilde tanımlamasına izin veren metin açıklamalarına odaklanır. Bu belgede daha fazla ayrıntı görün: Belirsiz Nesne Açıklamalarının Oluşturulması ve Anlaşılması.

Ek Belgeler : Belgeleri Keşfedin
Ana sayfa : https://github.com/mjhucla/Google_Refexp_toolbox
Kaynak kodu : tfds.vision_language.gref.Gref
sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
İndirme boyutu : Unknown size
Veri kümesi boyutu : 4.60 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
Verileri indirmek ve COCO ile hizalanmış biçimde önceden işlemek için https://github.com/mjhucla/Google_Refexp_toolbox adresindeki talimatları izleyin. Dizin 2 dosya ve bir klasör içerir:
google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/

coco_train2014 klasörü, tüm COCO 2014 eğitim görüntülerini içerir.

Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :

Bölmek	örnekler
`'train'`	24.698
`'validation'`	4.650

Özellik yapısı :

FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
görüntü	resim	(Yok, Yok, 3)	uint8
resim/kimlik	tensör		int64
nesneler	Sekans
nesneler/alan	tensör		int64
nesneler/bbox	BBoxÖzelliği	(4,)	şamandıra32
nesneler/kimlik	tensör		int64
nesneler/etiket	tensör		int64
nesneler/etiket_adı	SınıfEtiketi		int64
nesneler/refexp	Sekans
nesneler/refexp/ham	Metin		sicim
nesneler/refexp/referans	Metin		sicim
nesneler/refexp/refexp_id	tensör		int64
nesneler/refexp/belirteçler	Sıra(Metin)	(Hiçbiri,)	sicim

Denetlenen anahtarlar (Bkz as_supervised doc ): None
Şekil ( tfds.show_examples ):

görselleştirme

Örnekler ( tfds.as_dataframe ):

Alıntı :

@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}