- Mô tả :
Nhãn web ồn ào được kiểm soát là một tập hợp gồm ~212.000 URL dẫn đến hình ảnh trong đó mọi hình ảnh đều được chú thích cẩn thận bởi 3-5 chuyên gia ghi nhãn bằng Dịch vụ ghi nhãn dữ liệu trên đám mây của Google. Bằng cách sử dụng các chú thích này, nó thiết lập tiêu chuẩn đầu tiên về nhiễu nhãn trong thế giới thực được kiểm soát từ web.
Chúng tôi cung cấp các cấu hình Red Mini-ImageNet (nhiễu web trong thế giới thực) và Blue Mini-ImageNet: - Controled_noisy_web_labels/mini_imagenet_red - Controled_noisy_web_labels/mini_imagenet_blue
Mỗi cấu hình chứa mười biến thể với mười mức độ tiếng ồn p từ 0% đến 80%. Tập xác thực có nhãn rõ ràng và được chia sẻ trên tất cả các tập huấn luyện ồn ào. Do đó, mỗi cấu hình có các phần tách sau:
- xe lửa_00
- xe lửa_05
- tàu_10
- xe lửa_15
- xe lửa_20
- xe lửa_30
- tàu_40
- tàu_50
- tàu_60
- tàu_80
- Thẩm định
Các chi tiết để xây dựng và phân tích dữ liệu có thể được tìm thấy trong bài báo. Tất cả các hình ảnh được thay đổi kích thước thành độ phân giải 84x84.
Trang chủ : https://google.github.io/control-noisy-web-labels/index.html
Mã nguồn :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
1.83 MiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Để tải xuống dữ liệu này theo cách thủ công, người dùng phải thực hiện các thao tác sau:
- Tải xuống các phần tách và chú thích tại đây
- Giải nén dataset_no_images.zip thành dataset_no_images/.
- Tải xuống tất cả hình ảnh trong dataset_no_images/mini-imagenet-annotations.json vào một thư mục mới có tên dataset_no_images/noisy_images/. Tên tệp đầu ra phải phù hợp với id hình ảnh được cung cấp trong mini-imagenet-annotations.json. Ví dụ: nếu "hình ảnh/id": "5922767e5677aef4", thì hình ảnh tải xuống phải là dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Đăng ký trên https://image-net.org/download-images và tải xuống ILSVRC2012_img_train.tar và ILSVRC2012_img_val.tar.
Cấu trúc thư mục kết quả sau đó có thể được xử lý bởi TFDS:
- tập dữ liệu_no_images/
- mini-imagenet/
- class_name.txt
- tách ra/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
noise_images/
- 5922767e5677aef4.jpg
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | Chữ | sợi dây | ||
hình ảnh | Hình ảnh | (Không, Không có, 3) | uint8 | |
là_sạch | tenxơ | bool | ||
nhãn mác | LớpNhãn | int64 |
Các khóa được giám sát (Xem
as_supervised
doc ):('image', 'label')
trích dẫn :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
Controled_noisy_web_labels/mini_imagenet_red (cấu hình mặc định)
Kích thước tập dữ liệu :
1.19 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train_00' | 50.000 |
'train_05' | 50.000 |
'train_10' | 50.000 |
'train_15' | 50.000 |
'train_20' | 50.000 |
'train_30' | 49,985 |
'train_40' | 50.010 |
'train_50' | 49,962 |
'train_60' | 50.000 |
'train_80' | 50,008 |
'validation' | 5.000 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
được kiểm soát_noisy_web_labels/mini_imagenet_blue
Kích thước tập dữ liệu :
1.39 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5.000 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):