tao

Descrizione :

Il set di dati TAO è un ampio set di dati di rilevamento di oggetti video composto da 2.907 video ad alta risoluzione e 833 categorie di oggetti. Tieni presente che questo set di dati richiede almeno 300 GB di spazio libero per essere archiviato.

Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : https://taodataset.org/
Codice sorgente : tfds.video.tao.Tao
Versioni :
- 1.1.0 (predefinito) : aggiunta suddivisione del test.
Dimensioni del download : Unknown size
Dimensioni del set di dati : Unknown size
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in download_config.manual_dir (il valore predefinito è ~/tensorflow_datasets/downloads/manual/ ):
Alcuni file TAO (video HVACS e AVA) devono essere scaricati manualmente poiché è richiesto l'accesso a MOT. Si prega di scaricare tali dati seguendo le istruzioni su https://motchallenge.net/tao_download.php

Scarica questi dati e sposta i file .zip risultanti in ~/tensorflow_datasets/downloads/manual/

Se i dati che richiedono il download manuale non sono presenti, verranno saltati e verranno utilizzati solo i dati che non richiedono il download manuale.

Memorizzato automaticamente nella cache ( documentazione ): sconosciuto
Divide :

Diviso	Esempi

Chiavi supervisionate (vedi il documento as_supervised ): None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): Mancante.
Citazione :

@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (configurazione predefinita)

Descrizione configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640
Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/set di dati	Tensore		corda
metadati/altezza	Tensore		int32
metadata/neg_category_ids	Tensore	(Nessuno,)	int32
metadata/not_exhaustive_category_ids	Tensore	(Nessuno,)	int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
tracce	Sequenza
tracce/bbox	Sequenza (funzione BBox)	(Nessuno, 4)	float32
tracce/categoria	ClassLabel		int64
tracce/fotogrammi	Sequenza (Tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/scale_category	Tensore		corda
tracce/track_id	Tensore		int32
video	Video(Immagine)	(Nessuno, 480, 640, 3)	uint8

tao/completa_risoluzione

Descrizione configurazione : la versione a piena risoluzione del set di dati.
Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/set di dati	Tensore		corda
metadati/altezza	Tensore		int32
metadata/neg_category_ids	Tensore	(Nessuno,)	int32
metadata/not_exhaustive_category_ids	Tensore	(Nessuno,)	int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
tracce	Sequenza
tracce/bbox	Sequenza (funzione BBox)	(Nessuno, 4)	float32
tracce/categoria	ClassLabel		int64
tracce/fotogrammi	Sequenza (Tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/scale_category	Tensore		corda
tracce/track_id	Tensore		int32
video	Video(Immagine)	(Nessuno, Nessuno, Nessuno, 3)	uint8