I modelli di classificazione delle immagini hanno milioni di parametri. L'addestramento da zero richiede molti dati di addestramento etichettati e molta potenza di calcolo. Il transfer learning è una tecnica che abbrevia gran parte di questo prendendo un pezzo di un modello che è già stato addestrato su un'attività correlata e riutilizzandolo in un nuovo modello.
Questo Colab dimostra come costruire un modello Keras per classificare cinque specie di fiori utilizzando un TF2 SavedModel pre-addestrato da TensorFlow Hub per l'estrazione delle caratteristiche dell'immagine, addestrato sul set di dati ImageNet molto più grande e più generale. Facoltativamente, l'estrattore di funzionalità può essere addestrato ("messa a punto") insieme al classificatore appena aggiunto.
import itertools
import os
import matplotlib.pylab as plt
import numpy as np
import tensorflow as tf
import tensorflow_hub as hub
print("TF version:", tf.__version__)
print("Hub version:", hub.__version__)
print("GPU is", "available" if tf.config.list_physical_devices('GPU') else "NOT AVAILABLE")
TF version: 2.7.0 Hub version: 0.12.0 GPU is available
Seleziona il modulo TF2 SavedModel da usare
Per cominciare, utilizzare . Lo stesso URL può essere utilizzato nel codice per identificare il SavedModel e nel browser per mostrarne la documentazione. (Nota che i modelli in formato Hub TF1 non funzioneranno qui.)
Puoi trovare altri modelli di TF2 che generano immagini vettori di feature qui .
Ci sono più modelli possibili da provare. Tutto quello che devi fare è selezionarne uno diverso nella cella sottostante e seguire il taccuino.
model_name = "efficientnetv2-xl-21k" # @param ['efficientnetv2-s', 'efficientnetv2-m', 'efficientnetv2-l', 'efficientnetv2-s-21k', 'efficientnetv2-m-21k', 'efficientnetv2-l-21k', 'efficientnetv2-xl-21k', 'efficientnetv2-b0-21k', 'efficientnetv2-b1-21k', 'efficientnetv2-b2-21k', 'efficientnetv2-b3-21k', 'efficientnetv2-s-21k-ft1k', 'efficientnetv2-m-21k-ft1k', 'efficientnetv2-l-21k-ft1k', 'efficientnetv2-xl-21k-ft1k', 'efficientnetv2-b0-21k-ft1k', 'efficientnetv2-b1-21k-ft1k', 'efficientnetv2-b2-21k-ft1k', 'efficientnetv2-b3-21k-ft1k', 'efficientnetv2-b0', 'efficientnetv2-b1', 'efficientnetv2-b2', 'efficientnetv2-b3', 'efficientnet_b0', 'efficientnet_b1', 'efficientnet_b2', 'efficientnet_b3', 'efficientnet_b4', 'efficientnet_b5', 'efficientnet_b6', 'efficientnet_b7', 'bit_s-r50x1', 'inception_v3', 'inception_resnet_v2', 'resnet_v1_50', 'resnet_v1_101', 'resnet_v1_152', 'resnet_v2_50', 'resnet_v2_101', 'resnet_v2_152', 'nasnet_large', 'nasnet_mobile', 'pnasnet_large', 'mobilenet_v2_100_224', 'mobilenet_v2_130_224', 'mobilenet_v2_140_224', 'mobilenet_v3_small_100_224', 'mobilenet_v3_small_075_224', 'mobilenet_v3_large_100_224', 'mobilenet_v3_large_075_224']
model_handle = model_handle_map.get(model_name)
pixels = model_image_size_map.get(model_name, 224)
print(f"Selected model: {model_name} : {model_handle}")
IMAGE_SIZE = (pixels, pixels)
print(f"Input size {IMAGE_SIZE}")
Selected model: efficientnetv2-xl-21k : Input size (512, 512)
Configura il set di dati di Flowers
Gli ingressi vengono opportunamente ridimensionati per il modulo selezionato. L'aumento del set di dati (cioè distorsioni casuali di un'immagine ogni volta che viene letta) migliora l'addestramento, specialmente. durante la messa a punto.
data_dir = tf.keras.utils.get_file(
def build_dataset(subset):
return tf.keras.preprocessing.image_dataset_from_directory(
# Seed needs to provided when using validation_split and shuffle = True.
# A fixed seed is used so that the validation set is stable across runs.
train_ds = build_dataset("training")
class_names = tuple(train_ds.class_names)
train_size = train_ds.cardinality().numpy()
train_ds = train_ds.unbatch().batch(BATCH_SIZE)
train_ds = train_ds.repeat()
normalization_layer = tf.keras.layers.Rescaling(1. / 255)
preprocessing_model = tf.keras.Sequential([normalization_layer])
do_data_augmentation = False
if do_data_augmentation:
tf.keras.layers.RandomTranslation(0, 0.2))
tf.keras.layers.RandomTranslation(0.2, 0))
# Like the old tf.keras.preprocessing.image.ImageDataGenerator(),
# image sizes are fixed when reading, and then a random zoom is applied.
# If all training inputs are larger than image_size, one could also use
# RandomCrop with a batch size of 1 and rebatch later.
tf.keras.layers.RandomZoom(0.2, 0.2))
train_ds = images, labels:
(preprocessing_model(images), labels))
val_ds = build_dataset("validation")
valid_size = val_ds.cardinality().numpy()
val_ds = val_ds.unbatch().batch(BATCH_SIZE)
val_ds = images, labels:
(normalization_layer(images), labels))
Found 3670 files belonging to 5 classes. Using 2936 files for training. Found 3670 files belonging to 5 classes. Using 734 files for validation.
Definire il modello
Basta mettere un classificatore lineare in cima alla feature_extractor_layer
con il modulo Hub.
Per la velocità, si parte con un non-addestrabile feature_extractor_layer
, ma è anche possibile attivare la messa a punto per una maggiore precisione.
do_fine_tuning = False
print("Building model with", model_handle)
model = tf.keras.Sequential([
# Explicitly define the input shape so the model can be properly
# loaded by the TFLiteConverter
tf.keras.layers.InputLayer(input_shape=IMAGE_SIZE + (3,)),
hub.KerasLayer(model_handle, trainable=do_fine_tuning),
Building model with Model: "sequential_1" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= keras_layer (KerasLayer) (None, 1280) 207615832 dropout (Dropout) (None, 1280) 0 dense (Dense) (None, 5) 6405 ================================================================= Total params: 207,622,237 Trainable params: 6,405 Non-trainable params: 207,615,832 _________________________________________________________________
Addestrare il modello
optimizer=tf.keras.optimizers.SGD(learning_rate=0.005, momentum=0.9),
loss=tf.keras.losses.CategoricalCrossentropy(from_logits=True, label_smoothing=0.1),
steps_per_epoch = train_size // BATCH_SIZE
validation_steps = valid_size // BATCH_SIZE
hist =
epochs=5, steps_per_epoch=steps_per_epoch,
Epoch 1/5 183/183 [==============================] - 133s 543ms/step - loss: 0.9221 - accuracy: 0.8996 - val_loss: 0.6271 - val_accuracy: 0.9597 Epoch 2/5 183/183 [==============================] - 94s 514ms/step - loss: 0.6072 - accuracy: 0.9521 - val_loss: 0.5990 - val_accuracy: 0.9528 Epoch 3/5 183/183 [==============================] - 94s 513ms/step - loss: 0.5590 - accuracy: 0.9671 - val_loss: 0.5362 - val_accuracy: 0.9722 Epoch 4/5 183/183 [==============================] - 94s 514ms/step - loss: 0.5532 - accuracy: 0.9726 - val_loss: 0.5780 - val_accuracy: 0.9639 Epoch 5/5 183/183 [==============================] - 94s 513ms/step - loss: 0.5618 - accuracy: 0.9699 - val_loss: 0.5468 - val_accuracy: 0.9556
plt.ylabel("Loss (training and validation)")
plt.xlabel("Training Steps")
plt.ylabel("Accuracy (training and validation)")
plt.xlabel("Training Steps")
Prova il modello su un'immagine dai dati di convalida:
x, y = next(iter(val_ds))
image = x[0, :, :, :]
true_index = np.argmax(y[0])
# Expand the validation image to (1, 224, 224, 3) before predicting the label
prediction_scores = model.predict(np.expand_dims(image, axis=0))
predicted_index = np.argmax(prediction_scores)
print("True label: " + class_names[true_index])
print("Predicted label: " + class_names[predicted_index])
True label: sunflowers Predicted label: sunflowers
Infine, il modello addestrato può essere salvato per la distribuzione su TF Serving o TFLite (su dispositivi mobili) come segue.
saved_model_path = f"/tmp/saved_flowers_model_{model_name}", saved_model_path)
Opzionale: distribuzione su TensorFlow Lite
Tensorflow Lite consente di distribuire modelli tensorflow ai dispositivi mobili e dell'Internet degli oggetti. Il codice seguente mostra come convertire il modello addestrato per TFLite e applicare strumenti di post-formazione dal tensorflow modello di ottimizzazione Toolkit . Infine, lo esegue nell'interprete TFLite per esaminare la qualità risultante
- La conversione senza ottimizzazione fornisce gli stessi risultati di prima (fino all'errore di arrotondamento).
- La conversione con ottimizzazione senza dati quantizza i pesi del modello a 8 bit, ma l'inferenza utilizza ancora il calcolo in virgola mobile per le attivazioni della rete neurale. Ciò riduce le dimensioni del modello quasi di un fattore 4 e migliora la latenza della CPU sui dispositivi mobili.
- Inoltre, il calcolo delle attivazioni della rete neurale può essere quantizzato anche a numeri interi a 8 bit se viene fornito un piccolo set di dati di riferimento per calibrare l'intervallo di quantizzazione. Su un dispositivo mobile, questo accelera ulteriormente l'inferenza e rende possibile l'esecuzione su acceleratori come Edge TPU.
Impostazioni di ottimizzazione
optimize_lite_model = False
num_calibration_examples = 60
representative_dataset = None
if optimize_lite_model and num_calibration_examples:
# Use a bounded number of training examples without labels for calibration.
# TFLiteConverter expects a list of input tensors, each with batch size 1.
representative_dataset = lambda: itertools.islice(
([image[None, ...]] for batch, _ in train_ds for image in batch),
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_path)
if optimize_lite_model:
converter.optimizations = [tf.lite.Optimize.DEFAULT]
if representative_dataset: # This is optional, see above.
converter.representative_dataset = representative_dataset
lite_model_content = converter.convert()
with open(f"/tmp/lite_flowers_model_{model_name}.tflite", "wb") as f:
print("Wrote %sTFLite model of %d bytes." %
("optimized " if optimize_lite_model else "", len(lite_model_content)))
interpreter = tf.lite.Interpreter(model_content=lite_model_content)
# This little helper wraps the TFLite Interpreter as a numpy-to-numpy function.
def lite_model(images):
interpreter.set_tensor(interpreter.get_input_details()[0]['index'], images)
return interpreter.get_tensor(interpreter.get_output_details()[0]['index'])
num_eval_examples = 50
eval_dataset = ((image, label) # TFLite expects batch size 1.
for batch in train_ds
for (image, label) in zip(*batch))
count = 0
count_lite_tf_agree = 0
count_lite_correct = 0
for image, label in eval_dataset:
probs_lite = lite_model(image[None, ...])[0]
probs_tf = model(image[None, ...]).numpy()[0]
y_lite = np.argmax(probs_lite)
y_tf = np.argmax(probs_tf)
y_true = np.argmax(label)
count +=1
if y_lite == y_tf: count_lite_tf_agree += 1
if y_lite == y_true: count_lite_correct += 1
if count >= num_eval_examples: break
print("TFLite model agrees with original model on %d of %d examples (%g%%)." %
(count_lite_tf_agree, count, 100.0 * count_lite_tf_agree / count))
print("TFLite model is accurate on %d of %d examples (%g%%)." %
(count_lite_correct, count, 100.0 * count_lite_correct / count))
TFLite model agrees with original model on 50 of 50 examples (100%). TFLite model is accurate on 50 of 50 examples (100%).