- Descrizione :
Il set di dati TAO è un ampio set di dati di rilevamento di oggetti video composto da 2.907 video ad alta risoluzione e 833 categorie di oggetti. Tieni presente che questo set di dati richiede almeno 300 GB di spazio libero per essere archiviato.
Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : https://taodataset.org/
Codice sorgente :
tfds.video.tao.Tao
Versioni :
-
1.1.0
(predefinito) : aggiunta suddivisione del test.
-
Dimensioni del download :
Unknown size
Dimensioni del set di dati :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in
download_config.manual_dir
(il valore predefinito è~/tensorflow_datasets/downloads/manual/
):
Alcuni file TAO (video HVACS e AVA) devono essere scaricati manualmente poiché è richiesto l'accesso a MOT. Si prega di scaricare tali dati seguendo le istruzioni su https://motchallenge.net/tao_download.php
Scarica questi dati e sposta i file .zip risultanti in ~/tensorflow_datasets/downloads/manual/
Se i dati che richiedono il download manuale non sono presenti, verranno saltati e verranno utilizzati solo i dati che non richiedono il download manuale.
Memorizzato automaticamente nella cache ( documentazione ): sconosciuto
Divide :
Diviso | Esempi |
---|
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): Mancante.
Citazione :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (configurazione predefinita)
Descrizione configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640
Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/set di dati | Tensore | corda | ||
metadati/altezza | Tensore | int32 | ||
metadata/neg_category_ids | Tensore | (Nessuno,) | int32 | |
metadata/not_exhaustive_category_ids | Tensore | (Nessuno,) | int32 | |
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
tracce | Sequenza | |||
tracce/bbox | Sequenza (funzione BBox) | (Nessuno, 4) | float32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/fotogrammi | Sequenza (Tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/scale_category | Tensore | corda | ||
tracce/track_id | Tensore | int32 | ||
video | Video(Immagine) | (Nessuno, 480, 640, 3) | uint8 |
tao/completa_risoluzione
Descrizione configurazione : la versione a piena risoluzione del set di dati.
Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/set di dati | Tensore | corda | ||
metadati/altezza | Tensore | int32 | ||
metadata/neg_category_ids | Tensore | (Nessuno,) | int32 | |
metadata/not_exhaustive_category_ids | Tensore | (Nessuno,) | int32 | |
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
tracce | Sequenza | |||
tracce/bbox | Sequenza (funzione BBox) | (Nessuno, 4) | float32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/fotogrammi | Sequenza (Tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/scale_category | Tensore | corda | ||
tracce/track_id | Tensore | int32 | ||
video | Video(Immagine) | (Nessuno, Nessuno, Nessuno, 3) | uint8 |