- Opis :
Zbiór danych TAO to duży zbiór danych dotyczących wykrywania obiektów wideo, składający się z 2907 filmów o wysokiej rozdzielczości i 833 kategorii obiektów. Należy pamiętać, że ten zestaw danych wymaga co najmniej 300 GB wolnego miejsca do przechowywania.
Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : https://taodataset.org/
Kod źródłowy :
tfds.video.tao.Tao
Wersje :
-
1.1.0
(domyślnie) : Dodano podział testowy.
-
Rozmiar pobierania :
Unknown size
Rozmiar zbioru danych :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do
download_config.manual_dir
(domyślnie jest to~/tensorflow_datasets/downloads/manual/
):
Niektóre pliki TAO (filmy HVACS i AVA) należy pobrać ręcznie, ponieważ wymagane jest zalogowanie się do MOT. Proszę pobrać te dane, postępując zgodnie z instrukcjami na stronie https://motchallenge.net/tao_download.php
Pobierz te dane i przenieś powstałe pliki .zip do ~/tensorflow_datasets/downloads/manual/
Jeżeli nie ma danych wymagających ręcznego pobrania, zostaną one pominięte i użyte zostaną tylko te dane, które nie wymagają ręcznego pobrania.
Automatyczne buforowanie ( dokumentacja ): Nieznane
Podziały :
Podział | Przykłady |
---|
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ): Brak.
Cytat :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (konfiguracja domyślna)
Opis konfiguracji : Rozmiar wszystkich obrazów jest dwuliniowo zmieniany do 480 x 640
Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
metadane | FunkcjeDykt | |||
metadane/zestaw danych | Napinacz | smyczkowy | ||
metadane/wysokość | Napinacz | int32 | ||
metadane/neg_category_ids | Napinacz | (Nic,) | int32 | |
metadane/not_exhaustive_category_ids | Napinacz | (Nic,) | int32 | |
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | smyczkowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
utwory/bboxy | Sekwencja (funkcja BBox) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
ścieżki/ramki | Sekwencja (tensor) | (Nic,) | int32 | |
utwory/is_crowd | Napinacz | bool | ||
utwory/kategoria_skali | Napinacz | smyczkowy | ||
utwory/id_ścieżki | Napinacz | int32 | ||
wideo | Wideo (obraz) | (Brak, 480, 640, 3) | uint8 |
tao/pełna_rozdzielczość
Opis konfiguracji : Wersja zestawu danych w pełnej rozdzielczości.
Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
metadane | FunkcjeDykt | |||
metadane/zbiór danych | Napinacz | smyczkowy | ||
metadane/wysokość | Napinacz | int32 | ||
metadane/neg_category_ids | Napinacz | (Nic,) | int32 | |
metadane/not_exhaustive_category_ids | Napinacz | (Nic,) | int32 | |
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | smyczkowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
utwory/bboxy | Sekwencja (funkcja BBox) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
ścieżki/ramki | Sekwencja (tensor) | (Nic,) | int32 | |
utwory/is_crowd | Napinacz | bool | ||
utwory/kategoria_skali | Napinacz | smyczkowy | ||
utwory/id_ścieżki | Napinacz | int32 | ||
wideo | Wideo (obraz) | (Brak, Brak, Brak, 3) | uint8 |