control_noisy_web_labels

Mô tả :

Nhãn web ồn ào được kiểm soát là một tập hợp gồm ~212.000 URL dẫn đến hình ảnh trong đó mọi hình ảnh đều được chú thích cẩn thận bởi 3-5 chuyên gia ghi nhãn bằng Dịch vụ ghi nhãn dữ liệu trên đám mây của Google. Bằng cách sử dụng các chú thích này, nó thiết lập tiêu chuẩn đầu tiên về nhiễu nhãn trong thế giới thực được kiểm soát từ web.

Chúng tôi cung cấp các cấu hình Red Mini-ImageNet (nhiễu web trong thế giới thực) và Blue Mini-ImageNet: - Controled_noisy_web_labels/mini_imagenet_red - Controled_noisy_web_labels/mini_imagenet_blue

Mỗi cấu hình chứa mười biến thể với mười mức độ tiếng ồn p từ 0% đến 80%. Tập xác thực có nhãn rõ ràng và được chia sẻ trên tất cả các tập huấn luyện ồn ào. Do đó, mỗi cấu hình có các phần tách sau:

xe lửa_00
xe lửa_05
tàu_10
xe lửa_15
xe lửa_20
xe lửa_30
tàu_40
tàu_50
tàu_60
tàu_80
Thẩm định

Các chi tiết để xây dựng và phân tích dữ liệu có thể được tìm thấy trong bài báo. Tất cả các hình ảnh được thay đổi kích thước thành độ phân giải 84x84.

Trang chủ : https://google.github.io/control-noisy-web-labels/index.html
Mã nguồn : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : 1.83 MiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Để tải xuống dữ liệu này theo cách thủ công, người dùng phải thực hiện các thao tác sau:

Tải xuống các phần tách và chú thích tại đây
Giải nén dataset_no_images.zip thành dataset_no_images/.
Tải xuống tất cả hình ảnh trong dataset_no_images/mini-imagenet-annotations.json vào một thư mục mới có tên dataset_no_images/noisy_images/. Tên tệp đầu ra phải phù hợp với id hình ảnh được cung cấp trong mini-imagenet-annotations.json. Ví dụ: nếu "hình ảnh/id": "5922767e5677aef4", thì hình ảnh tải xuống phải là dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Đăng ký trên https://image-net.org/download-images và tải xuống ILSVRC2012_img_train.tar và ILSVRC2012_img_val.tar.

Cấu trúc thư mục kết quả sau đó có thể được xử lý bởi TFDS:

tập dữ liệu_no_images/
- mini-imagenet/
- class_name.txt
- tách ra/
  - blue_noise_nl_0.0
  - blue_noise_nl_0.1
  - ...
  - red_noise_nl_0.0
  - red_noise_nl_0.1
  - ...
  - clean_validation
- mini-imagenet-annotations.json
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
noise_images/
- 5922767e5677aef4.jpg
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
Tôi	Chữ		sợi dây
hình ảnh	Hình ảnh	(Không, Không có, 3)	uint8
là_sạch	tenxơ		bool
nhãn mác	LớpNhãn		int64

Các khóa được giám sát (Xem as_supervised doc ): ('image', 'label')
trích dẫn :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

Controled_noisy_web_labels/mini_imagenet_red (cấu hình mặc định)

Kích thước tập dữ liệu : 1.19 GiB
Chia tách :

Tách ra	ví dụ
`'train_00'`	50.000
`'train_05'`	50.000
`'train_10'`	50.000
`'train_15'`	50.000
`'train_20'`	50.000
`'train_30'`	49,985
`'train_40'`	50.010
`'train_50'`	49,962
`'train_60'`	50.000
`'train_80'`	50,008
`'validation'`	5.000

Hình ( tfds.show_examples ):

Hình dung

Ví dụ ( tfds.as_dataframe ):

được kiểm soát_noisy_web_labels/mini_imagenet_blue

Kích thước tập dữ liệu : 1.39 GiB
Chia tách :

Tách ra	ví dụ
`'train_00'`	60.000
`'train_05'`	60.000
`'train_10'`	60.000
`'train_15'`	60.000
`'train_20'`	60.000
`'train_30'`	60.000
`'train_40'`	60.000
`'train_50'`	60.000
`'train_60'`	60.000
`'train_80'`	60.000
`'validation'`	5.000

Hình ( tfds.show_examples ):

Hình dung

Ví dụ ( tfds.as_dataframe ):