Controlled_noisy_web_labels

  • 説明:

Controlled Noisy Web Labels は、画像への最大 212,000 の URL のコレクションであり、すべての画像は、Google Cloud Data Labeling Service によって 3 ~ 5 人のラベル付けの専門家によって慎重に注釈が付けられています。これらの注釈を使用して、Web から制御された現実世界のラベル ノイズの最初のベンチマークを確立します。

赤の Mini-ImageNet (現実世界の Web ノイズ) と青の Mini-ImageNet 構成を提供します。

各構成には、0% から 80% までの 10 のノイズ レベル p を持つ 10 のバリアントが含まれています。検証セットにはクリーンなラベルがあり、ノイズの多いすべてのトレーニング セットで共有されます。したがって、各構成には次の分割があります。

  • train_00
  • train_05
  • train_10
  • train_15
  • train_20
  • train_30
  • train_40
  • train_50
  • train_60
  • train_80
  • 検証

データセットの構築と分析の詳細については、論文を参照してください。すべての画像は 84x84 の解像度にサイズ変更されます。

  1. 分割と注釈はこちらからダウンロードしてください
  2. dataset_no_images.zip を dataset_no_images/ に解凍します。
  3. dataset_no_images/mini-imagenet-annotations.json 内のすべての画像を、dataset_no_images/noisy_images/ という名前の新しいフォルダーにダウンロードします。出力ファイル名は、mini-imagenet-annotations.json で提供されるイメージ ID と一致する必要があります。たとえば、"image/id": "5922767e5677aef4" の場合、ダウンロードされる画像は dataset_no_images/noisy_images/5922767e5677aef4.jpg になります。 4. https://image-net.org/download-imagesに登録し、ILSVRC2012_img_train.tar と ILSVRC2012_img_val.tar をダウンロードします。

結果のディレクトリ構造は、TFDS によって処理される場合があります。

  • dataset_no_images/
    • ミニイメージネット/
    • クラス名.txt
    • スプリット/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • うるさい_画像/

    • 5922767e5677aef4.jpg
  • 自動キャッシュ(ドキュメント): いいえ

  • 機能構造:

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ID文章ストリング
画像画像(なし、なし、3) uint8
is_cleanテンソルブール
ラベルクラスラベルint64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controls_noisy_web_labels/mini_imagenet_red (デフォルト設定)

  • データセットサイズ: 1.19 GiB

  • スプリット:

スプリット
'train_00' 50,000
'train_05' 50,000
'train_10' 50,000
'train_15' 50,000
'train_20' 50,000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50,000
'train_80' 50,008
'validation' 5,000

視覚化

controls_noisy_web_labels/mini_imagenet_blue

  • データセットサイズ: 1.39 GiB

  • スプリット:

スプリット
'train_00' 60,000
'train_05' 60,000
'train_10' 60,000
'train_15' 60,000
'train_20' 60,000
'train_30' 60,000
'train_40' 60,000
'train_50' 60,000
'train_60' 60,000
'train_80' 60,000
'validation' 5,000

視覚化