Questa guida mostra come migrare i flussi di lavoro in esecuzione su TPUStrategy
dall'API TPUEstimator di TensorFlow 1 all'API TPUEstimator
di TensorFlow 2.
- In TensorFlow 1, l'API
consente di addestrare e valutare un modello, nonché di eseguire inferenze e salvare il modello (per la pubblicazione) su TPU (Cloud). - In TensorFlow 2, per eseguire l'addestramento sincrono su TPU e pod TPU (una raccolta di dispositivi TPU collegati da interfacce di rete dedicate ad alta velocità), è necessario utilizzare una strategia di distribuzione TPU:
. La strategia può funzionare con le API Keras, anche per la creazione di modelli (tf.keras.Model
), gli ottimizzatori (tf.keras.optimizers.Optimizer
) e la formazione (
), nonché un ciclo di formazione personalizzato (contf.function
Per esempi end-to-end di TensorFlow 2, consulta la guida all'uso dei TPU, ovvero la sezione Classificazione sui TPU , e il tutorial Risolvi le attività GLUE utilizzando BERT su TPU . Potresti anche trovare utile la guida alla formazione distribuita , che copre tutte le strategie di distribuzione di TensorFlow, inclusa TPUStrategy
Inizia con le importazioni e un semplice set di dati a scopo dimostrativo:
import tensorflow as tf
import tensorflow.compat.v1 as tf1
features = [[1., 1.5]]
labels = [[0.3]]
eval_features = [[4., 4.5]]
eval_labels = [[0.8]]
TensorFlow 1: guida un modello su TPU con TPUEstimator
Questa sezione della guida mostra come eseguire la formazione e la valutazione con tf.compat.v1.estimator.tpu.TPUEstimator
in TensorFlow 1.
Per utilizzare un TPUEstimator
, definire prima alcune funzioni: una funzione di input per i dati di addestramento, una funzione di input di valutazione per i dati di valutazione e una funzione modello che indica a TPUEstimator
come viene definita l'operazione di addestramento con le caratteristiche e le etichette:
def _input_fn(params):
dataset =, labels))
dataset = dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)
def _eval_input_fn(params):
dataset =, eval_labels))
dataset = dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)
def _model_fn(features, labels, mode, params):
logits = tf1.layers.Dense(1)(features)
loss = tf1.losses.mean_squared_error(labels=labels, predictions=logits)
optimizer = tf1.train.AdagradOptimizer(0.05)
train_op = optimizer.minimize(loss, global_step=tf1.train.get_global_step())
return tf1.estimator.tpu.TPUEstimatorSpec(mode, loss=loss, train_op=train_op)
Con queste funzioni definite, creare un tf.distribute.cluster_resolver.TPUClusterResolver
che fornisce le informazioni sul cluster e un oggetto tf.compat.v1.estimator.tpu.RunConfig
. Insieme alla funzione modello che hai definito, ora puoi creare un TPUEstimator
. Qui semplificherai il flusso saltando i risparmi sui checkpoint. Quindi, specificherai la dimensione del batch sia per l'addestramento che per la valutazione per TPUEstimator
cluster_resolver = tf1.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf1.config.list_logical_devices('TPU'))
All devices: []
tpu_config = tf1.estimator.tpu.TPUConfig(iterations_per_loop=10)
config = tf1.estimator.tpu.RunConfig(
estimator = tf1.estimator.tpu.TPUEstimator(
Chiama TPUEstimator.train
per iniziare ad addestrare il modello:
estimator.train(_input_fn, steps=1)
Quindi, chiama TPUEstimator.evaluate
per valutare il modello utilizzando i dati di valutazione:
estimator.evaluate(_eval_input_fn, steps=1)
TensorFlow 2: guida un modello su TPU con Keras e TPUStrategy
In TensorFlow 2, per addestrare i lavoratori TPU, usa tf.distribute.TPUStrategy
insieme alle API Keras per la definizione del modello e l'addestramento/valutazione. (Per ulteriori esempi di allenamento con Keras
e un ciclo di allenamento personalizzato (con tf.function
e tf.GradientTape
).) fare riferimento alla guida all'uso delle TPU.
Poiché è necessario eseguire alcune operazioni di inizializzazione per connettersi al cluster remoto e inizializzare i lavoratori TPU, iniziare creando un TPUClusterResolver
per fornire le informazioni sul cluster e connettersi al cluster. (Ulteriori informazioni nella sezione sull'inizializzazione delle TPU della guida all'uso delle TPU .)
cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf.config.list_logical_devices('TPU'))
Successivamente, una volta preparati i dati, creerai una TPUStrategy
, definirai un modello, metriche e un ottimizzatore nell'ambito di questa strategia.
Per ottenere una velocità di addestramento comparabile con TPUStrategy
, assicurati di selezionare un numero per steps_per_execution
in Model.compile
perché specifica il numero di batch da eseguire durante ogni chiamata tf.function
ed è fondamentale per le prestazioni. Questo argomento è simile a iterations_per_loop
utilizzato in un TPUEstimator
. Se si utilizzano cicli di addestramento personalizzati, assicurarsi che vengano eseguiti più passaggi all'interno della funzione di addestramento tf.function
-ed. Per ulteriori informazioni, vai alla sezione Miglioramento delle prestazioni con più passaggi all'interno della sezione tf.function della guida all'uso delle TPU.
può supportare forme dinamiche limitate, nel caso in cui sia possibile dedurre il limite superiore del calcolo della forma dinamica. Ma le forme dinamiche possono introdurre un sovraccarico delle prestazioni rispetto alle forme statiche. Pertanto, in genere si consiglia di rendere statiche le forme di input, se possibile, soprattutto durante l'allenamento. Un'operazione comune che restituisce una forma dinamica è
, poiché il numero di campioni rimanenti in un flusso potrebbe essere inferiore alla dimensione del batch. Pertanto, durante l'allenamento sulla TPU, è necessario utilizzare, drop_remainder=True)
per ottenere le migliori prestazioni di allenamento.
dataset =
(features, labels)).shuffle(10).repeat().batch(
8, drop_remainder=True).prefetch(2)
eval_dataset =
(eval_features, eval_labels)).batch(1, drop_remainder=True)
strategy = tf.distribute.TPUStrategy(cluster_resolver)
with strategy.scope():
model = tf.keras.models.Sequential([tf.keras.layers.Dense(1)])
optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.05)
model.compile(optimizer, "mse", steps_per_execution=10)
Con ciò, sei pronto per addestrare il modello con il set di dati di addestramento:, epochs=5, steps_per_epoch=10)
Epoch 1/5 10/10 [==============================] - 2s 151ms/step - loss: 0.0840 Epoch 2/5 10/10 [==============================] - 0s 3ms/step - loss: 9.6915e-04 Epoch 3/5 10/10 [==============================] - 0s 3ms/step - loss: 1.5100e-05 Epoch 4/5 10/10 [==============================] - 0s 3ms/step - loss: 2.3593e-07 Epoch 5/5 10/10 [==============================] - 0s 3ms/step - loss: 3.7059e-09 <keras.callbacks.History at 0x7fec58275438>
Infine, valutare il modello utilizzando il dataset di valutazione:
model.evaluate(eval_dataset, return_dict=True)
1/1 [==============================] - 2s 2s/step - loss: 0.6127 {'loss': 0.6127181053161621}
Prossimi passi
Per saperne di più su TPUStrategy
in TensorFlow 2, considera le seguenti risorse:
- Guida: utilizzare le TPU (copertura dell'allenamento con Keras
/a ciclo di allenamento personalizzato contf.distribute.TPUStrategy
, nonché suggerimenti per migliorare le prestazioni contf.function
) - Guida: formazione distribuita con TensorFlow
Per ulteriori informazioni sulla personalizzazione della formazione, fare riferimento a:
Le TPU, gli ASIC specializzati di Google per l'apprendimento automatico, sono disponibili tramite Google Colab , TPU Research Cloud e Cloud TPU .