imagenet2012_subset

Keterangan :

ILSVRC 2012, umumnya dikenal sebagai 'ImageNet' adalah kumpulan data gambar yang disusun berdasarkan hierarki WordNet. Setiap konsep yang bermakna di WordNet, mungkin dijelaskan dengan beberapa kata atau frasa kata, disebut "kumpulan sinonim" atau "synset". Ada lebih dari 100.000 synset di WordNet, sebagian besar adalah kata benda (80.000+). Di ImageNet, kami bertujuan untuk menyediakan rata-rata 1000 gambar untuk mengilustrasikan setiap synset. Gambar dari setiap konsep dikontrol kualitasnya dan diberi anotasi manusia. Dalam penyelesaiannya, kami berharap ImageNet akan menawarkan puluhan juta gambar yang diurutkan dengan rapi untuk sebagian besar konsep dalam hierarki WordNet.

Pemisahan pengujian berisi 100 ribu gambar tetapi tidak ada label karena tidak ada label yang dirilis ke publik. Kami memberikan dukungan untuk pemisahan pengujian mulai tahun 2012 dengan patch minor yang dirilis pada 10 Oktober 2019. Untuk mengunduh data ini secara manual, pengguna harus melakukan operasi berikut:

Unduh pemisahan tes 2012 yang tersedia di sini .
Download patch 10 Oktober 2019. Ada link Google Drive ke patch yang disediakan di halaman yang sama.
Gabungkan dua bola tar, secara manual menimpa gambar apa pun di arsip asli dengan gambar dari tambalan. Menurut petunjuk di image-net.org, prosedur ini hanya menimpa beberapa gambar.

Tar-ball yang dihasilkan kemudian dapat diproses oleh TFDS.

Untuk menilai keakuratan model pada pemisahan pengujian ImageNet, seseorang harus menjalankan inferensi pada semua gambar dalam pemisahan tersebut, mengekspor hasil tersebut ke file teks yang harus diunggah ke server evaluasi ImageNet. Pengelola server evaluasi ImageNet mengizinkan satu pengguna untuk mengirimkan hingga 2 kiriman per minggu untuk mencegah overfitting.

Untuk mengevaluasi keakuratan pemisahan tes, seseorang harus terlebih dahulu membuat akun di image-net.org. Akun ini harus disetujui oleh administrator situs. Setelah akun dibuat, seseorang dapat mengirimkan hasilnya ke server pengujian di https://image-net.org/challenges/LSVRC/eval_server.php. Pengajuan terdiri dari beberapa file teks ASCII yang sesuai dengan beberapa tugas. Tugas yang menarik adalah "Pengajuan klasifikasi (kesalahan 5 cls teratas)". Contoh file teks yang diekspor terlihat seperti berikut:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Format ekspor dijelaskan secara lengkap di "readme.txt" dalam kit pengembangan 2013 yang tersedia di sini: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Silakan lihat bagian yang berjudul "3.3 CLS-LOC format penyerahan". Singkatnya, format file teks adalah 100.000 baris yang sesuai dengan setiap gambar dalam pengujian split. Setiap baris bilangan bulat sesuai dengan urutan peringkat, 5 prediksi teratas untuk setiap gambar pengujian. Bilangan bulat diindeks 1 sesuai dengan nomor baris di file label terkait. Lihat label.txt.

Beranda : http://image-net.org/
Kode sumber : tfds.datasets.imagenet2012_subset.Builder
Versi :
- 2.0.0 : Memperbaiki label validasi.
- 2.0.1 : Perbaikan pengkodean. Tidak ada perubahan dari sudut pandang pengguna.
- 3.0.0 : Memperbaiki pewarnaan pada ~12 gambar (CMYK -> RGB). Perbaiki format untuk konsistensi (konversi satu gambar png ke Jpeg). Pembacaan generasi lebih cepat langsung dari arsip.
- 4.0.0 : (tidak dipublikasikan)
- 5.0.0 (default): API terpisah baru ( https://tensorflow.org/datasets/splits )
- 5.1.0 : Menambahkan pemisahan tes.
Petunjuk pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default pada ~/tensorflow_datasets/downloads/manual/ ):
manual_dir harus berisi dua file: ILSVRC2012_img_train.tar dan ILSVRC2012_img_val.tar. Anda harus mendaftar di https://image-net.org/download-images untuk mendapatkan link untuk mendownload dataset.
Cache otomatis ( dokumentasi ): Tidak
Struktur fitur :

FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
nama_file	Teks		rangkaian
gambar	Gambar	(Tidak ada, Tidak ada, 3)	uint8
label	Label Kelas		int64

Kunci yang diawasi (Lihat dokumen as_supervised ): ('image', 'label')
Kutipan :

@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}