дао

Описание :

Набор данных TAO — это большой набор данных для обнаружения видеообъектов, состоящий из 2907 видео высокого разрешения и 833 категорий объектов. Обратите внимание, что для хранения этого набора данных требуется не менее 300 ГБ свободного места.

Дополнительная документация : Изучите статьи с кодом
Домашняя страница : https://taodataset.org/
Исходный код : tfds.video.tao.Tao
Версии :
- 1.1.0 (по умолчанию) : добавлено тестовое разделение.
Размер загрузки : Unknown size
Размер набора данных : Unknown size
Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Некоторые файлы TAO (видео HVACS и AVA) необходимо загружать вручную, поскольку требуется вход в систему MOT. Загрузите эти данные, следуя инструкциям на странице https://motchallenge.net/tao_download.php.

Загрузите эти данные и переместите полученные ZIP-файлы в ~/tensorflow_datasets/downloads/manual/.

Если данные, требующие загрузки вручную, отсутствуют, они будут пропущены и будут использоваться только данные, не требующие загрузки вручную.

Автокэширование ( документация ): неизвестно.
Расколы :

Расколоть	Примеры

Контролируемые ключи (см. документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ): Отсутствуют.
Цитата :

@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

тао/480_640 (конфигурация по умолчанию)

Описание конфигурации : Размер всех изображений билинейно изменяется до 480 X 640.
Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
метаданные	ВозможностиDict
метаданные/набор данных	Тензор		нить
метаданные/высота	Тензор		int32
метаданные/neg_category_ids	Тензор	(Никто,)	int32
метаданные/not_exhaustive_category_ids	Тензор	(Никто,)	int32
метаданные/количество_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/бибоксы	Последовательность(BBoxFeature)	(Нет, 4)	float32
треки/категория	Класслейбл		int64
дорожки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логическое значение
треки/scale_category	Тензор		нить
треки/track_id	Тензор		int32
видео	Видео (изображение)	(Нет, 480, 640, 3)	uint8

Тао/полное_разрешение

Описание конфигурации : версия набора данных в полном разрешении.
Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
метаданные	ВозможностиDict
метаданные/набор данных	Тензор		нить
метаданные/высота	Тензор		int32
метаданные/neg_category_ids	Тензор	(Никто,)	int32
метаданные/not_exhaustive_category_ids	Тензор	(Никто,)	int32
метаданные/количество_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/бибоксы	Последовательность(BBoxFeature)	(Нет, 4)	float32
треки/категория	Класслейбл		int64
дорожки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логическое значение
треки/scale_category	Тензор		нить
треки/track_id	Тензор		int32
видео	Видео (изображение)	(Нет, Нет, Нет, 3)	uint8