- 説明:
Controlled Noisy Web Labels は、画像への最大 212,000 の URL のコレクションであり、すべての画像は、Google Cloud Data Labeling Service によって 3 ~ 5 人のラベル付けの専門家によって慎重に注釈が付けられています。これらの注釈を使用して、Web から制御された現実世界のラベル ノイズの最初のベンチマークを確立します。
赤の Mini-ImageNet (現実世界の Web ノイズ) と青の Mini-ImageNet 構成を提供します。
各構成には、0% から 80% までの 10 のノイズ レベル p を持つ 10 のバリアントが含まれています。検証セットにはクリーンなラベルがあり、ノイズの多いすべてのトレーニング セットで共有されます。したがって、各構成には次の分割があります。
- train_00
- train_05
- train_10
- train_15
- train_20
- train_30
- train_40
- train_50
- train_60
- train_80
- 検証
データセットの構築と分析の詳細については、論文を参照してください。すべての画像は 84x84 の解像度にサイズ変更されます。
ホームページ: https://google.github.io/controld-noisy-web-labels/index.html
ソース コード:
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
1.83 MiB
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
このデータを手動でダウンロードするには、ユーザーは次の操作を実行する必要があります。
- 分割と注釈はこちらからダウンロードしてください
- dataset_no_images.zip を dataset_no_images/ に解凍します。
- dataset_no_images/mini-imagenet-annotations.json 内のすべての画像を、dataset_no_images/noisy_images/ という名前の新しいフォルダーにダウンロードします。出力ファイル名は、mini-imagenet-annotations.json で提供されるイメージ ID と一致する必要があります。たとえば、"image/id": "5922767e5677aef4" の場合、ダウンロードされる画像は dataset_no_images/noisy_images/5922767e5677aef4.jpg になります。 4. https://image-net.org/download-imagesに登録し、ILSVRC2012_img_train.tar と ILSVRC2012_img_val.tar をダウンロードします。
結果のディレクトリ構造は、TFDS によって処理される場合があります。
- dataset_no_images/
- ミニイメージネット/
- クラス名.txt
- スプリット/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
うるさい_画像/
- 5922767e5677aef4.jpg
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ID | 文章 | ストリング | ||
画像 | 画像 | (なし、なし、3) | uint8 | |
is_clean | テンソル | ブール | ||
ラベル | クラスラベル | int64 |
監視されたキー(
as_supervised
docを参照):('image', 'label')
引用:
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
controls_noisy_web_labels/mini_imagenet_red (デフォルト設定)
データセットサイズ:
1.19 GiB
スプリット:
スプリット | 例 |
---|---|
'train_00' | 50,000 |
'train_05' | 50,000 |
'train_10' | 50,000 |
'train_15' | 50,000 |
'train_20' | 50,000 |
'train_30' | 49,985 |
'train_40' | 50,010 |
'train_50' | 49,962 |
'train_60' | 50,000 |
'train_80' | 50,008 |
'validation' | 5,000 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
controls_noisy_web_labels/mini_imagenet_blue
データセットサイズ:
1.39 GiB
スプリット:
スプリット | 例 |
---|---|
'train_00' | 60,000 |
'train_05' | 60,000 |
'train_10' | 60,000 |
'train_15' | 60,000 |
'train_20' | 60,000 |
'train_30' | 60,000 |
'train_40' | 60,000 |
'train_50' | 60,000 |
'train_60' | 60,000 |
'train_80' | 60,000 |
'validation' | 5,000 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):