- Descrizione :
Youtube-vis è un set di dati di segmentazione di istanze video. Contiene 2.883 video YouTube ad alta risoluzione, un set di etichette di categoria per pixel che include 40 oggetti comuni come persone, animali e veicoli, 4.883 istanze video uniche e 131.000 annotazioni manuali di alta qualità.
Il set di dati YouTube-VIS è suddiviso in 2.238 video di formazione, 302 video di convalida e 343 video di test.
Nessun file è stato rimosso o alterato durante la pre-elaborazione.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://youtube-vos.org/dataset/vis/
Codice sorgente :
tfds.video.youtube_vis.YoutubeVis
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Scarica tutti i file per la versione 2019 del set di dati (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) dal sito web youtube-vis e spostali in ~/tensorflow_datasets/ download/manuale/.
Tieni presente che la pagina di destinazione del set di dati si trova su https://youtube-vos.org/dataset/vis/ e ti reindirizzerà quindi a una pagina su https://competitions.codalab.org dove puoi scaricare la versione 2019 del set di dati. Dovrai creare un account su codalab per scaricare i dati. Si noti che al momento della stesura di questo documento, sarà necessario ignorare un avviso "Connessione non sicura" quando si accede a codalab.
Cache automatica ( documentazione ): No
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (configurazione predefinita)
Descrizione della configurazione : la versione a piena risoluzione del set di dati, con tutti i frame, inclusi quelli senza etichette, inclusi.
Dimensione del set di dati:
33.31 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/480_640_full
Descrizione della configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640 con tutti i frame inclusi.
Dimensione del set di dati:
130.02 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, 480, 640, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, 480, 640, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Descrizione della configurazione : tutte le immagini sono ridimensionate bilinearmente a 480 X 640 con solo frame con etichette incluse.
Dimensione del set di dati:
26.27 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, 480, 640, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, 480, 640, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Descrizione della configurazione : solo le immagini con etichette incluse nella loro risoluzione nativa.
Dimensione del set di dati:
6.91 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/full_train_split
Descrizione della configurazione : la versione a piena risoluzione del set di dati, con tutti i frame, inclusi quelli senza etichette, inclusi. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati:
26.09 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Descrizione della configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640 con tutti i frame inclusi. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati:
101.57 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, 480, 640, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, 480, 640, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Descrizione della configurazione : tutte le immagini sono ridimensionate bilinearmente a 480 X 640 con solo frame con etichette incluse. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati:
20.55 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, 480, 640, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, 480, 640, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Descrizione della configurazione : solo le immagini con etichette incluse nella loro risoluzione nativa. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati:
5.46 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struttura delle caratteristiche :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
metadati | CaratteristicheDict | |||
metadati/altezza | Tensore | int32 | ||
metadati/num_frame | Tensore | int32 | ||
metadati/nome_video | Tensore | corda | ||
metadati/larghezza | Tensore | int32 | ||
brani | Sequenza | |||
tracce/aree | Sequenza (tensore) | (Nessuno,) | galleggiante32 | |
tracce/bbox | Sequenza(BBoxFeature) | (Nessuno, 4) | galleggiante32 | |
tracce/categoria | ClassLabel | int64 | ||
tracce/frame | Sequenza (tensore) | (Nessuno,) | int32 | |
tracce/è_folla | Tensore | bool | ||
tracce/segmentazioni | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 1) | uint8 | |
video | Video (Immagine) | (Nessuno, Nessuno, Nessuno, 3) | uint8 |
- Esempi ( tfds.as_dataframe ):