phân đoạn_bất cứ điều gì

  • Sự miêu tả :

Tải xuống SA-1B

Segment Anything 1 Billion (SA-1B) là tập dữ liệu được thiết kế để đào tạo các mô hình phân đoạn đối tượng có mục đích chung từ các hình ảnh thế giới mở. Bộ dữ liệu đã được giới thiệu trong bài báo "Segment Anything" .

Bộ dữ liệu SA-1B bao gồm 11M hình ảnh đa dạng, độ phân giải cao, được cấp phép và bảo vệ quyền riêng tư cũng như chú thích mặt nạ 1.1B. Mặt nạ được cung cấp ở định dạng mã hóa độ dài chạy COCO (RLE) và không có lớp.

Giấy phép là tùy chỉnh. Vui lòng đọc toàn bộ điều khoản và điều kiện trên https://ai.facebook.com/datasets/segment-anything-downloads

Tất cả các tính năng đều có trong tập dữ liệu gốc ngoại trừ image.content (nội dung của hình ảnh).

Bạn có thể giải mã mặt nạ phân đoạn bằng:

import tensorflow_datasets as tfds

pycocotools = tfds.core.lazy_imports.pycocotools

ds = tfds.load('segment_anything', split='train')
for example in tfds.as_numpy(ds):
  segmentation = example['annotations']['segmentation']
  for counts, size in zip(segmentation['counts'], segmentation['size']):
    encoded_mask = {'size': size, 'counts': counts}
    mask = pycocotools.decode(encoded_mask)  # np.array(dtype=uint8) mask
    ...
Tách ra Ví dụ
'train' 11.185.362
  • Cấu trúc tính năng :
FeaturesDict({
    'annotations': Sequence({
        'area': Scalar(shape=(), dtype=uint64, description=The area in pixels of the mask.),
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=The box around the mask, in TFDS format.),
        'crop_box': BBoxFeature(shape=(4,), dtype=float32, description=The crop of the image used to generate the mask, in TFDS format.),
        'id': Scalar(shape=(), dtype=uint64, description=Identifier for the annotation.),
        'point_coords': Tensor(shape=(1, 2), dtype=float64, description=The point coordinates input to the model to generate the mask.),
        'predicted_iou': Scalar(shape=(), dtype=float64, description=The model's own prediction of the mask's quality.),
        'segmentation': FeaturesDict({
            'counts': string,
            'size': Tensor(shape=(2,), dtype=uint64),
        }),
        'stability_score': Scalar(shape=(), dtype=float64, description=A measure of the mask's quality.),
    }),
    'image': FeaturesDict({
        'content': Image(shape=(None, None, 3), dtype=uint8, description=Content of the image.),
        'file_name': string,
        'height': uint64,
        'image_id': uint64,
        'width': uint64,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
chú thích Sự liên tiếp
chú thích/khu vực vô hướng uint64 Diện tích tính bằng pixel của mặt nạ.
chú thích/bbox Tính năng BBox (4,) phao32 Hộp xung quanh mặt nạ, ở định dạng TFDS.
chú thích/crop_box Tính năng BBox (4,) phao32 Phần cắt hình ảnh được sử dụng để tạo mặt nạ, ở định dạng TFDS.
chú thích/id vô hướng uint64 Mã định danh cho chú thích.
chú thích/point_coords Tenxơ (1, 2) phao64 Điểm tọa độ đầu vào của mô hình để tạo mặt nạ.
chú thích/dự đoán_iou vô hướng phao64 Dự đoán của chính người mẫu về chất lượng của mặt nạ.
chú thích/phân đoạn Tính năngDict Mặt nạ phân đoạn được mã hóa ở định dạng COCO RLE (dict với sizecounts khóa).
chú thích/phân đoạn/số lượng Tenxơ sợi dây
chú thích/phân đoạn/kích thước Tenxơ (2,) uint64
chú thích/ổn định_score vô hướng phao64 Thước đo chất lượng của mặt nạ.
hình ảnh Tính năngDict
hình ảnh/nội dung Hình ảnh (Không, Không, 3) uint8 Nội dung của hình ảnh.
hình ảnh/tên_tệp Tenxơ sợi dây
hình ảnh/chiều cao Tenxơ uint64
hình ảnh/hình ảnh_id Tenxơ uint64
hình ảnh/chiều rộng Tenxơ uint64
  • Trích dẫn :
@misc{kirillov2023segment,
  title={Segment Anything},
  author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
  year={2023},
  eprint={2304.02643},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}