- Açıklama :
Google RefExp veri kümesi, herkese açık MS-COCO veri kümesini temel alan, resimlerdeki nesnelerin metin açıklamalarından oluşan bir koleksiyondur. MS-COCO'daki resim alt yazıları görüntünün tamamı için geçerliyken, bu veri kümesi, bir kişinin bir görüntü içindeki tek bir nesneyi veya bölgeyi benzersiz bir şekilde tanımlamasına izin veren metin açıklamalarına odaklanır. Bu belgede daha fazla ayrıntı görün: Belirsiz Nesne Açıklamalarının Oluşturulması ve Anlaşılması.
Ana sayfa : https://github.com/mjhucla/Google_Refexp_toolbox
Kaynak kodu :
tfds.vision_language.gref.Gref
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
4.60 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
Verileri indirmek ve COCO ile hizalanmış biçimde önceden işlemek için https://github.com/mjhucla/Google_Refexp_toolbox adresindeki talimatları izleyin. Dizin 2 dosya ve bir klasör içerir:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/
coco_train2014 klasörü, tüm COCO 2014 eğitim görüntülerini içerir.
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Özellik yapısı :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
görüntü | resim | (Yok, Yok, 3) | uint8 | |
resim/kimlik | tensör | int64 | ||
nesneler | Sekans | |||
nesneler/alan | tensör | int64 | ||
nesneler/bbox | BBoxÖzelliği | (4,) | şamandıra32 | |
nesneler/kimlik | tensör | int64 | ||
nesneler/etiket | tensör | int64 | ||
nesneler/etiket_adı | SınıfEtiketi | int64 | ||
nesneler/refexp | Sekans | |||
nesneler/refexp/ham | Metin | sicim | ||
nesneler/refexp/referans | Metin | sicim | ||
nesneler/refexp/refexp_id | tensör | int64 | ||
nesneler/refexp/belirteçler | Sıra(Metin) | (Hiçbiri,) | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}