- Descrizione :
ILSVRC 2012, comunemente noto come "ImageNet", è un set di dati di immagini organizzato secondo la gerarchia WordNet. Ogni concetto significativo in WordNet, possibilmente descritto da più parole o frasi di parole, è chiamato "insieme di sinonimi" o "synset". Ci sono più di 100.000 synset in WordNet, la maggior parte di essi sono sostantivi (80.000+). In ImageNet, miriamo a fornire in media 1000 immagini per illustrare ciascun synset. Le immagini di ciascun concetto sono sottoposte a controllo di qualità e annotate da persone. Una volta completato, speriamo che ImageNet offra decine di milioni di immagini ordinate in modo chiaro per la maggior parte dei concetti nella gerarchia di WordNet.
La suddivisione di prova contiene 100.000 immagini ma nessuna etichetta perché nessuna etichetta è stata rilasciata pubblicamente. Forniamo supporto per il test split dal 2012 con la patch minore rilasciata il 10 ottobre 2019. Per scaricare manualmente questi dati, un utente deve eseguire le seguenti operazioni:
- Scarica il test split del 2012 disponibile qui .
- Scarica la patch del 10 ottobre 2019. Nella stessa pagina è presente un collegamento Google Drive alla patch.
- Combina le due palline di tar, sovrascrivendo manualmente qualsiasi immagine nell'archivio originale con le immagini della patch. Secondo le istruzioni su image-net.org, questa procedura sovrascrive solo alcune immagini.
Il tarball risultante può quindi essere elaborato da TFDS.
Per valutare l'accuratezza di un modello sulla suddivisione del test ImageNet, è necessario eseguire l'inferenza su tutte le immagini nella suddivisione, esportare tali risultati in un file di testo che deve essere caricato sul server di valutazione ImageNet. I manutentori del server di valutazione ImageNet consentono a un singolo utente di inviare fino a 2 invii a settimana per evitare un overfitting.
Per valutare l'accuratezza della suddivisione del test, è necessario prima creare un account su image-net.org. Questo account deve essere approvato dall'amministratore del sito. Dopo aver creato l'account, è possibile inviare i risultati al server di test all'indirizzo https://image-net.org/challenges/LSVRC/eval_server.php L'invio consiste in diversi file di testo ASCII corrispondenti a più attività. L'attività di interesse è "Invio della classificazione (errore top-5 cls)". Un esempio di file di testo esportato è simile al seguente:
771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168
Il formato di esportazione è descritto per intero in "readme.txt" all'interno del kit di sviluppo 2013 disponibile qui: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Consultare la sezione intitolata "3.3 CLS-LOC formato di invio". In breve, il formato del file di testo è di 100.000 righe corrispondenti a ciascuna immagine nella suddivisione di prova. Ciascuna riga di numeri interi corrisponde alle prime 5 previsioni ordinate in base alla classifica per ciascuna immagine di prova. Gli interi sono indicizzati 1 corrispondente al numero di riga nel file di etichette corrispondente. Vedi etichette.txt.
Pagina iniziale : http://image-net.org/
Codice sorgente :
tfds.datasets.imagenet2012_subset.Builder
Versioni :
-
2.0.0
: corrette le etichette di convalida. -
2.0.1
: correzione della codifica. Nessun cambiamento dal punto di vista dell'utente. 3.0.0
: corretta la colorazione su ~12 immagini (CMYK -> RGB). Correggi il formato per coerenza (converti la singola immagine PNG in Jpeg). Lettura di generazione più rapida direttamente dall'archivio.4.0.0
: (non pubblicato)5.0.0
(impostazione predefinita): nuova API divisa ( https://tensorflow.org/datasets/splits )5.1.0
: Aggiunta la suddivisione del test.
-
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in
download_config.manual_dir
(il valore predefinito è~/tensorflow_datasets/downloads/manual/
):
manual_dir deve contenere due file: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. È necessario registrarsi su https://image-net.org/download-images per ottenere il collegamento per scaricare il set di dati.Memorizzazione nella cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
nome_file | Testo | corda | ||
immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
etichetta | ClassLabel | int64 |
Chiavi supervisionate (vedi il documento
as_supervised
):('image', 'label')
Citazione :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}
imagenet2012_subset/1pct (configurazione predefinita)
Descrizione della configurazione : 1% del set di training ImageNet totale.
Dimensione del download :
254.22 KiB
Dimensione del set di dati :
7.61 GiB
Divide :
Diviso | Esempi |
---|---|
'train' | 12.811 |
'validation' | 50.000 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
imagenet2012_subset/10pct
Descrizione della configurazione : 10% del set di training ImageNet totale.
Dimensione download :
2.48 MiB
Dimensione del set di dati :
19.91 GiB
Divide :
Diviso | Esempi |
---|---|
'train' | 128.116 |
'validation' | 50.000 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):