イメージネット2012

  • 説明

一般に「ImageNet」として知られる ILSVRC 2012 は、WordNet 階層に従って編成された画像データセットです。 WordNet 内のそれぞれの意味のある概念は、複数の単語または語句で記述される可能性があり、「同義語セット」または「同義語セット」と呼ばれます。 WordNet には 100,000 を超える構文があり、その大部分は名詞 (80,000 以上) です。 ImageNet では、各シンセットを説明するために平均 1,000 枚の画像を提供することを目指しています。各コンセプトの画像は品質管理され、人間による注釈が付けられています。完成時には、ImageNet が WordNet 階層のほとんどの概念に対して、きれいに分類された何千万もの画像を提供できるようになることを期待しています。

テスト分割には 100K の画像が含まれていますが、ラベルが公開されていないため、ラベルは含まれていません。 2012 年からのテスト分割は、2019 年 10 月 10 日にリリースされたマイナー パッチでサポートされています。このデータを手動でダウンロードするには、ユーザーは次の操作を実行する必要があります。

  1. 2012 年のテスト分割はここからダウンロードできます。
  2. 2019 年 10 月 10 日のパッチをダウンロードします。同じページに提供されているパッチへの Google ドライブ リンクがあります。
  3. 2 つの tar ボールを結合し、元のアーカイブ内のイメージをパッチのイメージで手動で上書きします。 image-net.org の手順によると、この手順ではいくつかの画像のみが上書きされます。

結果として得られるタールボールは、TFDS によって処理されます。

ImageNet テスト分割でのモデルの精度を評価するには、分割内のすべての画像に対して推論を実行し、それらの結果をテキスト ファイルにエクスポートし、それを ImageNet 評価サーバーにアップロードする必要があります。 ImageNet 評価サーバーの管理者は、過剰適合を防ぐために、1 人のユーザーが週に最大 2 件の提出を許可しています。

テスト分割の精度を評価するには、まず image-net.org でアカウントを作成する必要があります。このアカウントはサイト管理者によって承認される必要があります。アカウントの作成後、 https://image-net.org/challenges/LSVRC/eval_server.phpで結果をテスト サーバーに送信できます。送信は、複数のタスクに対応するいくつかの ASCII テキスト ファイルで構成されます。対象となるタスクは「分類の提出(上位 5 cls エラー)」です。エクスポートされたテキスト ファイルのサンプルは次のようになります。

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

エクスポート形式については、こちらから入手できる 2013 開発キット内の「readme.txt」に完全に説明されています: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz 「3.3 CLS-LOC」というタイトルのセクションを参照してください。提出フォーマット」。簡単に言うと、テキスト ファイルの形式は、テスト分割の各画像に対応する 100,000 行です。整数の各行は、各テスト イメージのランク順の上位 5 つの予測に対応します。整数には、対応するラベル ファイルの行番号に対応して 1 から始まるインデックスが付けられます。 「labels.txt」を参照してください。

  • 追加ドキュメント:コード付きの論文について調べる

  • ホームページhttps://image-net.org/

  • ソースコード: tfds.datasets.imagenet2012.Builder

  • バージョン:

    • 2.0.0 : 検証ラベルを修正しました。
    • 2.0.1 : エンコーディングを修正しました。ユーザーの観点からは何も変わりません。
    • 3.0.0 : 〜 12 個の画像の色付けを修正 (CMYK -> RGB)。一貫性を保つために形式を修正しました (単一の PNG 画像を Jpeg に変換します)。アーカイブから直接生成を読み取る方が高速になります。

    • 4.0.0 : (未公開)

    • 5.0.0 : 新しい分割 API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (デフォルト): テスト分割を追加しました。

  • ダウンロードサイズ: Unknown size

  • データセットのサイズ: 155.84 GiB

  • 手動ダウンロード手順: このデータセットでは、ソース データをdownload_config.manual_dirに手動でダウンロードする必要があります (デフォルトは~/tensorflow_datasets/downloads/manual/ )。
    Manual_dir には、ILSVRC2012_img_train.tar と ILSVRC2012_img_val.tar の 2 つのファイルが含まれている必要があります。データセットをダウンロードするリンクを取得するには、 https://image-net.org/download-imagesに登録する必要があります。

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • 機能の構造:
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
ファイル名文章
画像画像(なし、なし、3) uint8
ラベルクラスラベルint64

視覚化

  • 引用
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}