- Descripción :
El conjunto de datos TAO es un gran conjunto de datos de detección de objetos de video que consta de 2907 videos de alta resolución y 833 categorías de objetos. Tenga en cuenta que este conjunto de datos requiere al menos 300 GB de espacio libre para almacenar.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://taodataset.org/
Código fuente :
tfds.video.tao.Tao
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Tamaño de descarga :
113.96 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Algunos archivos TAO (videos HVACS y AVA) deben descargarse manualmente porque se requiere iniciar sesión en MOT. Descargue esos datos siguiendo las instrucciones en https://motchallenge.net/tao_download.php
Descargue estos datos y mueva los archivos .zip resultantes a ~/tensorflow_datasets/downloads/manual/
Si los datos que requieren descarga manual no están presentes, se omitirán y solo se utilizarán los datos que no requieran descarga manual.
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 500 |
'validation' | 988 |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (configuración predeterminada)
Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640
Tamaño del conjunto de datos :
482.30 GiB
Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/conjunto de datos | Tensor | cuerda | ||
metadatos/altura | Tensor | int32 | ||
metadatos/neg_category_ids | Tensor | (Ninguna,) | int32 | |
metadata/not_exhaustive_category_ids | Tensor | (Ninguna,) | int32 | |
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/escala_categoría | Tensor | cuerda | ||
pistas/track_id | Tensor | int32 | ||
video | Vídeo (Imagen) | (Ninguno, 480, 640, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
tao/resolución_completa
Descripción de la configuración : la versión de resolución completa del conjunto de datos.
Tamaño del conjunto de datos :
171.24 GiB
Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/conjunto de datos | Tensor | cuerda | ||
metadatos/altura | Tensor | int32 | ||
metadatos/neg_category_ids | Tensor | (Ninguna,) | int32 | |
metadata/not_exhaustive_category_ids | Tensor | (Ninguna,) | int32 | |
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/escala_categoría | Tensor | cuerda | ||
pistas/track_id | Tensor | int32 | ||
video | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):