tao

  • Opis :

Zbiór danych TAO to duży zbiór danych dotyczących wykrywania obiektów wideo, składający się z 2907 filmów o wysokiej rozdzielczości i 833 kategorii obiektów. Należy pamiętać, że ten zestaw danych wymaga co najmniej 300 GB wolnego miejsca do przechowywania.

  • Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem

  • Strona główna : https://taodataset.org/

  • Kod źródłowy : tfds.video.tao.Tao

  • Wersje :

    • 1.1.0 (domyślnie) : Dodano podział testowy.
  • Rozmiar pobierania : Unknown size

  • Rozmiar zbioru danych : Unknown size

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie jest to ~/tensorflow_datasets/downloads/manual/ ):
    Niektóre pliki TAO (filmy HVACS i AVA) należy pobrać ręcznie, ponieważ wymagane jest zalogowanie się do MOT. Proszę pobrać te dane, postępując zgodnie z instrukcjami na stronie https://motchallenge.net/tao_download.php

Pobierz te dane i przenieś powstałe pliki .zip do ~/tensorflow_datasets/downloads/manual/

Jeżeli nie ma danych wymagających ręcznego pobrania, zostaną one pominięte i użyte zostaną tylko te dane, które nie wymagają ręcznego pobrania.

  • Automatyczne buforowanie ( dokumentacja ): Nieznane

  • Podziały :

Podział Przykłady
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (konfiguracja domyślna)

  • Opis konfiguracji : Rozmiar wszystkich obrazów jest dwuliniowo zmieniany do 480 x 640

  • Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
metadane FunkcjeDykt
metadane/zestaw danych Napinacz smyczkowy
metadane/wysokość Napinacz int32
metadane/neg_category_ids Napinacz (Nic,) int32
metadane/not_exhaustive_category_ids Napinacz (Nic,) int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz smyczkowy
metadane/szerokość Napinacz int32
utwory Sekwencja
utwory/bboxy Sekwencja (funkcja BBox) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
ścieżki/ramki Sekwencja (tensor) (Nic,) int32
utwory/is_crowd Napinacz bool
utwory/kategoria_skali Napinacz smyczkowy
utwory/id_ścieżki Napinacz int32
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

tao/pełna_rozdzielczość

  • Opis konfiguracji : Wersja zestawu danych w pełnej rozdzielczości.

  • Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
metadane FunkcjeDykt
metadane/zbiór danych Napinacz smyczkowy
metadane/wysokość Napinacz int32
metadane/neg_category_ids Napinacz (Nic,) int32
metadane/not_exhaustive_category_ids Napinacz (Nic,) int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz smyczkowy
metadane/szerokość Napinacz int32
utwory Sekwencja
utwory/bboxy Sekwencja (funkcja BBox) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
ścieżki/ramki Sekwencja (tensor) (Nic,) int32
utwory/is_crowd Napinacz bool
utwory/kategoria_skali Napinacz smyczkowy
utwory/id_ścieżki Napinacz int32
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8