tao

  • Descrição :

O conjunto de dados TAO é um grande conjunto de dados de detecção de objetos de vídeo que consiste em 2.907 vídeos de alta resolução e 833 categorias de objetos. Observe que este conjunto de dados requer pelo menos 300 GB de espaço livre para armazenamento.

  • Documentação adicional : Explore artigos com código

  • Página inicial : https://taodataset.org/

  • Código fonte : tfds.video.tao.Tao

  • Versões :

    • 1.0.0 (padrão): Sem notas de versão.
    • 1.1.0 : Adicionada divisão de teste.
  • Tamanho do download : 113.96 GiB

  • Instruções de download manual : este conjunto de dados requer que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Alguns arquivos TAO (vídeos HVACS e AVA) devem ser baixados manualmente porque é necessário fazer login no MOT. Faça o download desses dados seguindo as instruções em https://motchallenge.net/tao_download.php

Baixe esses dados e mova os arquivos .zip resultantes para ~/tensorflow_datasets/downloads/manual/

Se os dados que requerem download manual não estiverem presentes, eles serão ignorados e somente os dados que não requerem download manual serão usados.

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'train' 500
'validation' 988
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (configuração padrão)

  • Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640

  • Tamanho do conjunto de dados : 482.30 GiB

  • Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/conjunto de dados Tensor corda
metadados/altura Tensor int32
metadados/neg_category_ids Tensor (Nenhum,) int32
metadados/not_exhaustive_category_ids Tensor (Nenhum,) int32
metadados/num_frames Tensor int32
metadados/video_name Tensor corda
metadados/largura Tensor int32
faixas Sequência
faixas/bboxes Sequência (BBoxFeature) (Nenhum, 4) float32
faixas/categoria ClassLabel int64
trilhas/quadros Sequência (Tensor) (Nenhum,) int32
faixas/is_crowd Tensor bool
trilhas/scale_category Tensor corda
trilhas/track_id Tensor int32
vídeo Vídeo (imagem) (Nenhum, 480, 640, 3) uint8

tao/resolução_completa

  • Descrição da configuração : a versão de resolução completa do conjunto de dados.

  • Tamanho do conjunto de dados : 171.24 GiB

  • Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/conjunto de dados Tensor corda
metadados/altura Tensor int32
metadados/neg_category_ids Tensor (Nenhum,) int32
metadados/not_exhaustive_category_ids Tensor (Nenhum,) int32
metadados/num_frames Tensor int32
metadados/nome_do_vídeo Tensor corda
metadados/largura Tensor int32
faixas Sequência
faixas/bboxes Sequência (BBoxFeature) (Nenhum, 4) float32
faixas/categoria ClassLabel int64
trilhas/quadros Sequência (Tensor) (Nenhum,) int32
faixas/is_crowd Tensor bool
faixas/scale_category Tensor corda
trilhas/track_id Tensor int32
vídeo Vídeo (imagem) (Nenhum, Nenhum, Nenhum, 3) uint8