- 설명 :
Youtube-vis는 비디오 인스턴스 세분화 데이터 세트입니다. 여기에는 2,883개의 고해상도 YouTube 비디오, 사람, 동물 및 차량과 같은 40개의 일반적인 개체를 포함하는 픽셀당 범주 레이블 세트, 4,883개의 고유 비디오 인스턴스 및 131k 고품질 수동 주석이 포함됩니다.
YouTube-VIS 데이터 세트는 2,238개의 훈련 비디오, 302개의 검증 비디오 및 343개의 테스트 비디오로 나뉩니다.
전처리 중에 파일이 제거되거나 변경되지 않았습니다.
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
Unknown size
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
youtube-vis 웹사이트에서 데이터 세트의 2019 버전에 대한 모든 파일(test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json)을 다운로드하고 ~/tensorflow_datasets/로 이동하십시오. 다운로드/수동/.
데이터 세트 랜딩 페이지는 https://youtube-vos.org/dataset/vis/에 있으며, 그러면 2019 버전을 다운로드할 수 있는 https://competitions.codalab.org 페이지로 리디렉션됩니다. 데이터 세트의. 데이터를 다운로드하려면 codalab에 계정을 만들어야 합니다. 이 글을 작성할 때 codalab에 액세스할 때 "연결이 안전하지 않음" 경고를 우회해야 합니다.
자동 캐시 ( 문서 ): 아니요
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full(기본 구성)
구성 설명 : 레이블이 없는 프레임을 포함하여 모든 프레임이 포함된 데이터 세트의 전체 해상도 버전입니다.
데이터세트 크기 :
33.31 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 없음, 없음, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 없음, 없음, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/480_640_full
구성 설명 : 모든 이미지는 모든 프레임이 포함된 480 X 640으로 이중 선형 크기로 조정됩니다.
데이터세트 크기 :
130.02 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 480, 640, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 480, 640, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
구성 설명 : 모든 이미지는 레이블이 포함된 프레임만 포함하여 480 X 640으로 이중 선형으로 크기가 조정됩니다.
데이터세트 크기 :
26.27 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 480, 640, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 480, 640, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
구성 설명 : 기본 해상도에 라벨이 포함된 이미지만 포함됩니다.
데이터세트 크기 :
6.91 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 없음, 없음, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 없음, 없음, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/full_train_split
구성 설명 : 레이블이 없는 프레임을 포함하여 모든 프레임이 포함된 데이터 세트의 전체 해상도 버전입니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.
데이터세트 크기 :
26.09 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 없음, 없음, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 없음, 없음, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
구성 설명 : 모든 이미지는 모든 프레임이 포함된 480 X 640으로 이중 선형 크기로 조정됩니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.
데이터세트 크기 :
101.57 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 480, 640, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 480, 640, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
구성 설명 : 모든 이미지는 레이블이 포함된 프레임만 포함하여 480 X 640으로 이중 선형으로 크기가 조정됩니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.
데이터세트 크기 :
20.55 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 480, 640, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 480, 640, 3) | uint8 |
- 예 ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
구성 설명 : 기본 해상도에 라벨이 포함된 이미지만 포함됩니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.
데이터세트 크기 :
5.46 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- 기능 구조 :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
메타데이터 | 풍모Dict | |||
메타데이터/높이 | 텐서 | int32 | ||
메타데이터/num_frames | 텐서 | int32 | ||
메타데이터/동영상_이름 | 텐서 | 끈 | ||
메타데이터/너비 | 텐서 | int32 | ||
트랙 | 순서 | |||
트랙/지역 | 시퀀스(텐서) | (없음,) | float32 | |
트랙/bbox | 시퀀스(BBoxFeature) | (없음, 4) | float32 | |
트랙/카테고리 | 클래스 레이블 | int64 | ||
트랙/프레임 | 시퀀스(텐서) | (없음,) | int32 | |
트랙/is_crowd | 텐서 | 부울 | ||
트랙/분할 | 동영상(이미지) | (없음, 없음, 없음, 1) | uint8 | |
동영상 | 동영상(이미지) | (없음, 없음, 없음, 3) | uint8 |
- 예 ( tfds.as_dataframe ):