- Descriptif :
Youtube-vis est un ensemble de données de segmentation d'instance vidéo. Il contient 2 883 vidéos YouTube haute résolution, un ensemble d'étiquettes de catégorie par pixel comprenant 40 objets courants tels que des personnes, des animaux et des véhicules, 4 883 instances vidéo uniques et 131 000 annotations manuelles de haute qualité.
L'ensemble de données YouTube-VIS est divisé en 2 238 vidéos de formation, 302 vidéos de validation et 343 vidéos de test.
Aucun fichier n'a été supprimé ou modifié pendant le prétraitement.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://youtube-vos.org/dataset/vis/
Code source :
tfds.video.youtube_vis.YoutubeVis
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Veuillez télécharger tous les fichiers pour la version 2019 de l'ensemble de données (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) depuis le site Web youtube-vis et les déplacer vers ~/tensorflow_datasets/ téléchargements/manuel/.
Notez que la page d'accueil de l'ensemble de données se trouve à https://youtube-vos.org/dataset/vis/, et elle vous redirigera ensuite vers une page sur https://competitions.codalab.org où vous pourrez télécharger la version 2019 de l'ensemble de données. Vous devrez créer un compte sur codalab pour télécharger les données. Notez qu'au moment d'écrire ces lignes, vous devrez contourner un avertissement "Connexion non sécurisée" lors de l'accès à codalab.
Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (configuration par défaut)
Description de la configuration : la version pleine résolution du jeu de données, avec toutes les images, y compris celles sans étiquettes, incluses.
Taille du jeu de données :
33.31 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, Aucun, Aucun, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, Aucun, Aucun, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/480_640_full
Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec tous les cadres inclus.
Taille du jeu de données :
130.02 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, 480, 640, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, 480, 640, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec uniquement des cadres avec étiquettes incluses.
Taille du jeu de données :
26.27 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, 480, 640, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, 480, 640, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Description de la configuration : seules les images avec des étiquettes incluses dans leur résolution native.
Taille du jeu de données :
6.91 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, Aucun, Aucun, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, Aucun, Aucun, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/full_train_split
Description de la configuration : la version pleine résolution du jeu de données, avec toutes les images, y compris celles sans étiquettes, incluses. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données :
26.09 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 200 |
'train' | 1 838 |
'validation' | 200 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, Aucun, Aucun, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, Aucun, Aucun, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec tous les cadres inclus. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données :
101.57 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 200 |
'train' | 1 838 |
'validation' | 200 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, 480, 640, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, 480, 640, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec uniquement des cadres avec étiquettes incluses. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données :
20.55 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 200 |
'train' | 1 838 |
'validation' | 200 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, 480, 640, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, 480, 640, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Description de la configuration : seules les images avec des étiquettes incluses dans leur résolution native. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données :
5.46 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 200 |
'train' | 1 838 |
'validation' | 200 |
- Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/hauteur | Tenseur | int32 | ||
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/zones | Séquence (tenseur) | (Aucun,) | float32 | |
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/segmentations | Vidéo (Image) | (Aucun, Aucun, Aucun, 1) | uint8 | |
vidéo | Vidéo (Image) | (Aucun, Aucun, Aucun, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):