tao

Description :

L'ensemble de données TAO est un vaste ensemble de données de détection d'objets vidéo composé de 2 907 vidéos haute résolution et de 833 catégories d'objets. Notez que cet ensemble de données nécessite au moins 300 Go d'espace libre pour être stocké.

Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://taodataset.org/
Code source : tfds.video.tao.Tao
Versions :
- 1.1.0 (par défaut) : Ajout d'une répartition de test.
Taille du téléchargement : Unknown size
Taille du jeu de données : Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez les données sources manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Certains fichiers TAO (vidéos CVCS et AVA) doivent être téléchargés manuellement car une connexion au MOT est requise. Veuillez télécharger ces données en suivant les instructions sur https://motchallenge.net/tao_download.php

Téléchargez ces données et déplacez les fichiers .zip résultants vers ~/tensorflow_datasets/downloads/manual/

Si les données nécessitant un téléchargement manuel ne sont pas présentes, elles seront ignorées et seules les données ne nécessitant pas de téléchargement manuel seront utilisées.

Mise en cache automatique ( documentation ) : Inconnu
Divisions :

Diviser	Exemples

Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :

@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (configuration par défaut)

Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640
Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/ensemble de données	Tenseur		chaîne
métadonnées/hauteur	Tenseur		int32
métadonnées/neg_category_ids	Tenseur	(Aucun,)	int32
métadonnées/not_exhaustive_category_ids	Tenseur	(Aucun,)	int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne
métadonnées/largeur	Tenseur		int32
pistes	Séquence
pistes/bbox	Séquence (BBoxFeature)	(Aucun, 4)	flotteur32
pistes/catégorie	Étiquette de classe		int64
pistes/images	Séquence (Tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bouffon
pistes/scale_category	Tenseur		chaîne
pistes/track_id	Tenseur		int32
vidéo	Vidéo (image)	(Aucun, 480, 640, 3)	uint8

tao/full_resolution

Description de la configuration : La version pleine résolution de l'ensemble de données.
Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/ensemble de données	Tenseur		chaîne
métadonnées/hauteur	Tenseur		int32
métadonnées/neg_category_ids	Tenseur	(Aucun,)	int32
métadonnées/not_exhaustive_category_ids	Tenseur	(Aucun,)	int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne
métadonnées/largeur	Tenseur		int32
pistes	Séquence
pistes/bbox	Séquence (BBoxFeature)	(Aucun, 4)	flotteur32
pistes/catégorie	Étiquette de classe		int64
pistes/images	Séquence (Tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bouffon
pistes/scale_category	Tenseur		chaîne
pistes/track_id	Tenseur		int32
vidéo	Vidéo (image)	(Aucun, Aucun, Aucun, 3)	uint8

tao Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

tao/480_640 (configuration par défaut)

tao/full_resolution

tao