- Mô tả :
Bộ dữ liệu Google RefExp là tập hợp các mô tả văn bản của các đối tượng trong hình ảnh được xây dựng trên bộ dữ liệu MS-COCO có sẵn công khai. Trong khi chú thích hình ảnh trong MS-COCO áp dụng cho toàn bộ hình ảnh, bộ dữ liệu này tập trung vào mô tả văn bản cho phép một người xác định duy nhất một đối tượng hoặc vùng trong hình ảnh. Xem thêm chi tiết trong bài viết này: Tạo và hiểu các mô tả đối tượng rõ ràng.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/mjhucla/Google_Refexp_toolbox
Mã nguồn :
tfds.vision_language.gref.Gref
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
4.60 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Làm theo hướng dẫn tại https://github.com/mjhucla/Google_Refexp_toolbox để tải xuống và xử lý trước dữ liệu thành định dạng phù hợp với COCO. Thư mục chứa 2 tệp và một thư mục:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/
Thư mục coco_train2014 chứa tất cả các hình ảnh đào tạo COCO 2014.
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 24,698 |
'validation' | 4.650 |
- Cấu trúc tính năng :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
hình ảnh | Hình ảnh | (Không, Không có, 3) | uint8 | |
hình ảnh/id | tenxơ | int64 | ||
các đối tượng | Sự phối hợp | |||
đồ vật/khu vực | tenxơ | int64 | ||
đối tượng/bbox | Tính năng BBox | (4,) | phao32 | |
đối tượng/id | tenxơ | int64 | ||
đối tượng/nhãn | tenxơ | int64 | ||
đối tượng/tên_nhãn | LớpNhãn | int64 | ||
đối tượng/refexp | Sự phối hợp | |||
đối tượng/refexp/thô | Chữ | sợi dây | ||
đối tượng/refexp/tham chiếu | Chữ | sợi dây | ||
đối tượng/refexp/refexp_id | tenxơ | int64 | ||
đối tượng/refexp/mã thông báo | Trình tự (Văn bản) | (Không có,) | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}