cifar10_1

  • 説明

CIFAR-10.1 データセットは、CIFAR-10 の新しいテスト セットです。 CIFAR-10.1 には、元の CIFAR-10 データセットに対する数年間の研究の後にサンプリングされた約 2,000 枚の新しいテスト画像が含まれています。 CIFAR-10.1 のデータ収集は、元のデータセットと比較した分布のシフトを最小限に抑えるように設計されました。 CIFAR-10.1 の作成については、論文「CIFAR-10 分類子は CIFAR-10 に一般化しますか?」で説明しています。 CIFAR-10.1 の画像は、TinyImages データセットのサブセットです。現在、CIFAR-10.1 データセットには v4 と v6 の 2 つのバージョンがあります。

FeaturesDict({
    'image': Image(shape=(32, 32, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
画像画像(32、32、3) uint8
ラベルクラスラベルint64
@article{recht2018cifar10.1,
  author = {Benjamin Recht and Rebecca Roelofs and Ludwig Schmidt and Vaishaal Shankar},
  title = {Do CIFAR-10 Classifiers Generalize to CIFAR-10?},
  year = {2018},
  note = {\url{https://arxiv.org/abs/1806.00451} },
}

@article{torralba2008tinyimages,
  author = {Antonio Torralba and Rob Fergus and William T. Freeman},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
  title = {80 Million Tiny Images: A Large Data Set for Nonparametric Object and Scene Recognition},
  year = {2008},
  volume = {30},
  number = {11},
  pages = {1958-1970}
}

cifar10_1/v4 (デフォルト設定)

  • 構成の説明: これは、分類器をテストしたデータセットの最初のバージョンです。上で述べたように、これにより v4 データセットは評価する分類器から独立したものになります。私たちの論文の主要なセクションで報告されている数値は、このバージョンのデータセットを使用しています。これは、各クラスの上位 25 個の TinyImages キーワードから構築されているため、わずかなクラスの不均衡が生じました。最大の違いは、船舶がテスト セットの 10% ではなく 8% しか構成していないことです。 v4 には 2,021 個の画像が含まれています。

  • ダウンロードサイズ: 5.93 MiB

  • データセットのサイズ: 4.46 MiB

  • 分割:

スプリット
'test' 2,021

視覚化

cifar10_1/v6

  • 構成の説明: これは、クラスのバランスが正確に保たれる、わずかに改善されたキーワード割り当てから派生しています。このバージョンのデータセットは、論文の付録 D の結果に対応しています。 v6 には 2,000 の画像が含まれています。

  • ダウンロードサイズ: 5.87 MiB

  • データセットのサイズ: 4.40 MiB

  • 分割:

スプリット
'test' 2,000

視覚化