場所いっぱい

説明:

Places データセットは、人間の視覚認識の原則に従って設計されています。私たちの目標は、シーンコンテキスト、オブジェクト認識、アクションとイベントの予測、理論による推論など、高レベルの視覚的理解タスクのために人工システムをトレーニングするために使用できる視覚的知識のコアを構築することです。

場所のセマンティックカテゴリは、その機能によって定義されます。ラベルは、環境のエントリレベルを表します。説明すると、データセットには寝室や通りなどのさまざまなカテゴリがあります。これは、家の寝室、ホテルの寝室、または子供部屋で同じように行動したり、次に何が起こるかについて同じ予測を行ったりしないためです。 Places には、400 以上のユニークなシーンカテゴリからなる 1,000 万枚を超える画像が含まれています。このデータセットには、クラスごとに 5000 から 30,000 のトレーニング画像が含まれており、実際の発生頻度と一致しています。 Places データセットは、畳み込みニューラルネットワーク (CNN) を使用して、シーン中心のベンチマークで新しい最先端のパフォーマンスを確立することを目標に、さまざまなシーン認識タスクのディープシーン機能の学習を可能にします。

ここでは、学術研究および教育目的で Places Database とトレーニング済み CNN を提供しています。

ホームページ: http://places2.csail.mit.edu/
ソースコード: tfds.datasets.placesfull.Builder
バージョン:
- 1.0.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 143.56 GiB
データセットサイズ: 136.56 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'train'`	10,653,087

機能構造:

FeaturesDict({
    'filename': Text(shape=(), dtype=string),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=435),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
ファイル名	文章		ストリング
画像	画像	(256, 256, 3)	uint8
ラベル	クラスラベル		int64

監視されたキー( as_supervised docを参照): ('image', 'label', 'filename')
図( tfds.show_examples ):

視覚化

例( tfds.as_dataframe ):

引用：

@article{zhou2017places,
  title={Places: A 10 million Image Database for Scene Recognition},
  author={Zhou, Bolei and Lapedriza, Agata and Khosla, Aditya and Oliva, Aude and Torralba, Antonio},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year={2017},
  publisher={IEEE}
}