TFDS รองรับ รูปแบบ Croissant 🥐 แล้ว! อ่าน เอกสาร เพื่อทราบข้อมูลเพิ่มเติม

หน้านี้ได้รับการแปลโดย Cloud Translation API

youtube_vis

คำอธิบาย :

Youtube-vis เป็นชุดข้อมูลการแบ่งส่วนอินสแตนซ์วิดีโอ ประกอบด้วยวิดีโอ YouTube ความละเอียดสูง 2,883 รายการ ป้ายหมวดหมู่ต่อพิกเซลที่ประกอบด้วยวัตถุทั่วไป 40 รายการ เช่น บุคคล สัตว์ และยานพาหนะ ตัวอย่างวิดีโอที่ไม่ซ้ำกัน 4,883 รายการ และคำอธิบายประกอบแบบแมนนวลคุณภาพสูง 131k รายการ

ชุดข้อมูล YouTube-VIS แบ่งออกเป็นวิดีโอฝึกอบรม 2,238 รายการ วิดีโอตรวจสอบ 302 รายการ และวิดีโอทดสอบ 343 รายการ

ไม่มีไฟล์ใดถูกลบหรือแก้ไขระหว่างการประมวลผลล่วงหน้า

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://youtube-vos.org/dataset/vis/
รหัสที่มา : tfds.video.youtube_vis.YoutubeVis
รุ่น :
- 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
ขนาดการดาวน์โหลด : Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
โปรดดาวน์โหลดไฟล์ทั้งหมดสำหรับชุดข้อมูลเวอร์ชัน 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) จากเว็บไซต์ youtube-vis และย้ายไปที่ ~/tensorflow_datasets/ ดาวน์โหลด/คู่มือ/.

โปรดทราบว่าหน้า Landing Page ของชุดข้อมูลอยู่ที่ https://youtube-vos.org/dataset/vis/ จากนั้นจะนำคุณไปยังหน้าบน https://competitions.codalab.org ซึ่งคุณสามารถดาวน์โหลดเวอร์ชัน 2019 ได้ ของชุดข้อมูล คุณจะต้องสร้างบัญชีใน codalab เพื่อดาวน์โหลดข้อมูล โปรดทราบว่าในขณะที่เขียนบทความนี้ คุณจะต้องข้ามคำเตือน "การเชื่อมต่อไม่ปลอดภัย" เมื่อเข้าถึง codalab

แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (การกำหนดค่าเริ่มต้น)

คำอธิบาย การกำหนดค่า : ชุดข้อมูลเวอร์ชันความละเอียดเต็ม ซึ่งมีเฟรมทั้งหมด รวมถึงเฟรมที่ไม่มีป้ายกำกับรวมอยู่ด้วย
ขนาดชุดข้อมูล : 33.31 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	343
`'train'`	2,238
`'validation'`	302

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/480_640_full

คำอธิบาย การกำหนดค่า : รูปภาพทั้งหมดได้รับการปรับขนาดแบบทวิภาคีเป็น 480 X 640 โดยรวมเฟรมทั้งหมดไว้ด้วย
ขนาดชุดข้อมูล : 130.02 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	343
`'train'`	2,238
`'validation'`	302

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

คำอธิบาย การกำหนดค่า : รูปภาพทั้งหมดได้รับการปรับขนาดแบบทวิภาคีเป็น 480 X 640 โดยมีเฉพาะเฟรมที่มีป้ายกำกับรวมอยู่ด้วย
ขนาดชุดข้อมูล : 26.27 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	343
`'train'`	2,238
`'validation'`	302

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

คำอธิบาย การกำหนดค่า : เฉพาะรูปภาพที่มีป้ายกำกับรวมอยู่ในความละเอียดดั้งเดิม
ขนาดชุดข้อมูล : 6.91 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	343
`'train'`	2,238
`'validation'`	302

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/full_train_split

คำอธิบาย การกำหนดค่า : ชุดข้อมูลเวอร์ชันความละเอียดเต็ม ซึ่งมีเฟรมทั้งหมด รวมถึงเฟรมที่ไม่มีป้ายกำกับรวมอยู่ด้วย วาล์วและตัวแยกทดสอบผลิตขึ้นจากข้อมูลการฝึก
ขนาดชุดข้อมูล : 26.09 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	200
`'train'`	1,838
`'validation'`	200

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

คำอธิบาย การกำหนดค่า : รูปภาพทั้งหมดได้รับการปรับขนาดแบบทวิภาคีเป็น 480 X 640 โดยรวมเฟรมทั้งหมดไว้ด้วย วาล์วและตัวแยกทดสอบผลิตขึ้นจากข้อมูลการฝึก
ขนาดชุดข้อมูล : 101.57 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	200
`'train'`	1,838
`'validation'`	200

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

คำอธิบาย การกำหนดค่า : รูปภาพทั้งหมดได้รับการปรับขนาดแบบทวิภาคีเป็น 480 X 640 โดยมีเฉพาะเฟรมที่มีป้ายกำกับรวมอยู่ด้วย วาล์วและตัวแยกทดสอบผลิตขึ้นจากข้อมูลการฝึก
ขนาดชุดข้อมูล : 20.55 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	200
`'train'`	1,838
`'validation'`	200

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี, 480, 640, 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

คำอธิบาย การกำหนดค่า : เฉพาะรูปภาพที่มีป้ายกำกับรวมอยู่ในความละเอียดดั้งเดิม วาล์วและตัวแยกทดสอบผลิตขึ้นจากข้อมูลการฝึก
ขนาดชุดข้อมูล : 5.46 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	200
`'train'`	1,838
`'validation'`	200

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ข้อมูลเมตา	คุณสมบัติDict
ข้อมูลเมตา/ความสูง	เทนเซอร์		int32
ข้อมูลเมตา/num_frames	เทนเซอร์		int32
ข้อมูลเมตา/ชื่อวิดีโอ	เทนเซอร์		สตริง
ข้อมูลเมตา/ความกว้าง	เทนเซอร์		int32
เพลง	ลำดับ
แทร็ก / พื้นที่	ลำดับ (เทนเซอร์)	(ไม่มี,)	ลอย32
แทร็ก/บ็อกซ์	ลำดับ (BBoxFeature)	(ไม่มี 4)	ลอย32
แทร็ก/หมวดหมู่	ป้ายกำกับคลาส		int64
แทร็ก / เฟรม	ลำดับ (เทนเซอร์)	(ไม่มี,)	int32
แทร็ก/is_crowd	เทนเซอร์		บูล
แทร็ก / การแบ่งส่วน	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 1)	uint8
วิดีโอ	วิดีโอ (รูปภาพ)	(ไม่มี ไม่มี ไม่มี 3)	uint8

ตัวอย่าง ( tfds.as_dataframe ):