imagenet2012_podzbiór

Opis :

ILSVRC 2012, powszechnie znany jako „ImageNet”, to zbiór danych obrazów zorganizowany zgodnie z hierarchią WordNet. Każde znaczące pojęcie w WordNet, prawdopodobnie opisane wieloma słowami lub frazami słownymi, nazywane jest „zestawem synonimów” lub „synsetem”. W WordNet istnieje ponad 100 000 synsetów, większość z nich to rzeczowniki (ponad 80 000). W ImageNet staramy się dostarczać średnio 1000 obrazów ilustrujących każdy synset. Obrazy każdej koncepcji są kontrolowane pod względem jakości i opatrzone adnotacjami człowieka. Mamy nadzieję, że po jego ukończeniu ImageNet będzie oferować dziesiątki milionów przejrzyście posortowanych obrazów dla większości pojęć w hierarchii WordNet.

Część testowa zawiera 100 tys. obrazów, ale nie zawiera etykiet, ponieważ żadne etykiety nie zostały publicznie opublikowane. Zapewniamy wsparcie dla splitu testowego z 2012 roku z drobną łatką wydaną 10 października 2019. Aby ręcznie pobrać te dane, użytkownik musi wykonać następujące operacje:

Pobierz wersję testową 2012 dostępną tutaj .
Pobierz aktualizację z 10 października 2019 r. Na tej samej stronie znajduje się link do łatki na Dysku Google.
Połącz dwie kulki tar, ręcznie nadpisując wszelkie obrazy z oryginalnego archiwum obrazami z łatki. Zgodnie z instrukcjami na image-net.org, ta procedura nadpisuje tylko kilka obrazów.

Powstałą kulkę smoły można następnie przetworzyć w TFDS.

Aby ocenić dokładność modelu w podziale testowym ImageNet, należy przeprowadzić wnioskowanie na wszystkich obrazach w podziale, wyeksportować te wyniki do pliku tekstowego, który należy przesłać na serwer ewaluacyjny ImageNet. Opiekunowie serwera ewaluacyjnego ImageNet umożliwiają jednemu użytkownikowi przesyłanie maksymalnie 2 zgłoszeń tygodniowo, aby zapobiec nadmiernemu dopasowaniu.

Aby ocenić dokładność podziału testowego, należy najpierw utworzyć konto na image-net.org. To konto musi zostać zatwierdzone przez administratora serwisu. Po utworzeniu konta można przesłać wyniki na serwer testowy pod adresem https://image-net.org/challenges/LSVRC/eval_server.php. Zgłoszenie składa się z kilku plików tekstowych ASCII odpowiadających wielu zadaniom. Interesujące zadanie to „Przesłanie klasyfikacji (błąd 5 pierwszych klas)”. Przykład wyeksportowanego pliku tekstowego wygląda następująco:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Format eksportu jest opisany w całości w pliku „readme.txt” w zestawie deweloperskim 2013 dostępnym tutaj: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz. Zobacz sekcję zatytułowaną „3.3 CLS-LOC”. formularz zgłoszenia”. W skrócie, format pliku tekstowego to 100 000 linii odpowiadających każdemu obrazowi w podziale testowym. Każda linia liczb całkowitych odpowiada uporządkowanym według rang, 5 najlepszym przewidywaniom dla każdego obrazu testowego. Liczby całkowite są indeksowane o 1, co odpowiada numerowi wiersza w odpowiednim pliku etykiet. Zobacz label.txt.

Strona główna : http://image-net.org/
Kod źródłowy : tfds.datasets.imagenet2012_subset.Builder
Wersje :
- 2.0.0 : Napraw etykiety sprawdzające.
- 2.0.1 : Poprawka kodowania. Żadnych zmian z punktu widzenia użytkownika.
- 3.0.0 : Napraw koloryzację na ~12 obrazach (CMYK -> RGB). Napraw format zapewniający spójność (przekonwertuj pojedynczy obraz PNG na Jpeg). Szybszy odczyt generacji bezpośrednio z archiwum.
- 4.0.0 : (niepublikowane)
- 5.0.0 (domyślnie): Nowe podzielone API ( https://tensorflow.org/datasets/splits )
- 5.1.0 : Dodano podział testu.
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie jest to ~/tensorflow_datasets/downloads/manual/ ):
katalog_ręczny powinien zawierać dwa pliki: ILSVRC2012_img_train.tar i ILSVRC2012_img_val.tar. Aby otrzymać link do pobrania zestawu danych, musisz zarejestrować się na stronie https://image-net.org/download-images .
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :

FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDykt
nazwa_pliku	Tekst		smyczkowy
obraz	Obraz	(Brak, Brak, 3)	uint8
etykieta	Etykieta klasy		int64

Klucze nadzorowane (zobacz dokument as_supervised ): ('image', 'label')
Cytat :

@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}