gref

  • Descriptif :

L'ensemble de données Google RefExp est une collection de descriptions textuelles d'objets dans des images qui s'appuie sur l'ensemble de données MS-COCO accessible au public. Alors que les légendes d'image dans MS-COCO s'appliquent à l'image entière, cet ensemble de données se concentre sur les descriptions textuelles qui permettent d'identifier de manière unique un seul objet ou une seule région dans une image. Voir plus de détails dans cet article : Génération et compréhension de descriptions d'objets non ambiguës.

  • Documentation complémentaire : Explorer sur Papers With Code

  • Page d' accueil : https://github.com/mjhucla/Google_Refexp_toolbox

  • Code source : tfds.vision_language.gref.Gref

  • Versions :

    • 1.0.0 (par défaut) : version initiale.
  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : 4.60 GiB

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Suivez les instructions sur https://github.com/mjhucla/Google_Refexp_toolbox pour télécharger et prétraiter les données dans un format aligné avec COCO. Le répertoire contient 2 fichiers et un dossier :

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

Le dossier coco_train2014 contient toutes les images de formation COCO 2014.

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 24 698
'validation' 4 650
  • Structure des fonctionnalités :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
image Image (Aucun, Aucun, 3) uint8
image/identifiant Tenseur int64
objets Séquence
objets/zone Tenseur int64
objets/bbox BBoxFeature (4,) float32
objets/identifiant Tenseur int64
objets/étiquette Tenseur int64
objets/nom_étiquette Étiquette de classe int64
objets/refexp Séquence
objets/refexp/brut Texte chaîne de caractères
objets/refexp/référent Texte chaîne de caractères
objets/refexp/refexp_id Tenseur int64
objets/refexp/jetons Séquence (texte) (Aucun,) chaîne de caractères

Visualisation

  • Citation :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}