Migrar do TPUEstimator para o TPUStrategy

Este guia demonstra como migrar seus fluxos de trabalho executados em TPUs da API TPUEstimator do TPUEstimator 1 para a API TPUStrategy do TPUStrategy 2.

  • No TensorFlow 1, a API tf.compat.v1.estimator.tpu.TPUEstimator permite treinar e avaliar um modelo, além de realizar inferências e salvar seu modelo (para veiculação) em TPUs (nuvem).
  • No TensorFlow 2, para realizar treinamento síncrono em TPUs e TPU Pods (uma coleção de dispositivos TPU conectados por interfaces de rede dedicadas de alta velocidade), você precisa usar uma estratégia de distribuição de TPU tf.distribute.TPUStrategy . A estratégia pode funcionar com as APIs Keras — inclusive para construção de modelos ( tf.keras.Model ), otimizadores ( tf.keras.optimizers.Optimizer ) e treinamento ( Model.fit ) — bem como um loop de treinamento personalizado (com tf.function e tf.GradientTape ).

Para exemplos completos do TensorFlow 2, confira o guia Use TPUs , ou seja, a seção Classificação em TPUs , e o tutorial Resolver tarefas GLUE usando BERT em TPU . Você também pode achar útil o guia de treinamento distribuído , que abrange todas as estratégias de distribuição do TensorFlow, incluindo TPUStrategy .


Comece com importações e um conjunto de dados simples para fins de demonstração:

import tensorflow as tf
import tensorflow.compat.v1 as tf1
features = [[1., 1.5]]
labels = [[0.3]]
eval_features = [[4., 4.5]]
eval_labels = [[0.8]]

TensorFlow 1: conduza um modelo em TPUs com TPUEstimator

Esta seção do guia demonstra como realizar treinamento e avaliação com tf.compat.v1.estimator.tpu.TPUEstimator no TensorFlow 1.

Para usar um TPUEstimator , primeiro defina algumas funções: uma função de entrada para os dados de treinamento, uma função de entrada de avaliação para os dados de avaliação e uma função de modelo que informa ao TPUEstimator como a operação de treinamento é definida com os recursos e rótulos:

def _input_fn(params):
  dataset = tf1.data.Dataset.from_tensor_slices((features, labels))
  dataset = dataset.repeat()
  return dataset.batch(params['batch_size'], drop_remainder=True)

def _eval_input_fn(params):
  dataset = tf1.data.Dataset.from_tensor_slices((eval_features, eval_labels))
  dataset = dataset.repeat()
  return dataset.batch(params['batch_size'], drop_remainder=True)

def _model_fn(features, labels, mode, params):
  logits = tf1.layers.Dense(1)(features)
  loss = tf1.losses.mean_squared_error(labels=labels, predictions=logits)
  optimizer = tf1.train.AdagradOptimizer(0.05)
  train_op = optimizer.minimize(loss, global_step=tf1.train.get_global_step())
  return tf1.estimator.tpu.TPUEstimatorSpec(mode, loss=loss, train_op=train_op)

Com essas funções definidas, crie um tf.distribute.cluster_resolver.TPUClusterResolver que forneça as informações do cluster e um objeto tf.compat.v1.estimator.tpu.RunConfig . Junto com a função de modelo que você definiu, agora você pode criar um TPUEstimator . Aqui, você simplificará o fluxo ignorando a economia de pontos de verificação. Em seguida, você especificará o tamanho do lote para treinamento e avaliação para o TPUEstimator .

cluster_resolver = tf1.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf1.config.list_logical_devices('TPU'))
<tensorflow_estimator.python.estimator.tpu.tpu_estimator.TPUEstimator at 0x7fec59ef9d68>

Em seguida, chame TPUEstimator.evaluate para avaliar o modelo usando os dados de avaliação:

estimator.evaluate(_eval_input_fn, steps=1)
{'loss': 116.58184, 'global_step': 1}

TensorFlow 2: conduza um modelo em TPUs com Keras Model.fit e TPUStrategy

No TensorFlow 2, para treinar nos trabalhadores da TPU, use tf.distribute.TPUStrategy junto com as APIs Keras para definição de modelo e treinamento/avaliação. (Consulte o guia Use TPUs para obter mais exemplos de treinamento com Keras Model.fit e um loop de treinamento personalizado (com tf.function e tf.GradientTape ).)

Como você precisa executar algum trabalho de inicialização para se conectar ao cluster remoto e inicializar os trabalhadores da TPU, comece criando um TPUClusterResolver para fornecer as informações do cluster e conectar-se ao cluster. (Saiba mais na seção de inicialização da TPU do guia Usar TPUs .)

cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf.config.list_logical_devices('TPU'))
Com isso, você está pronto para treinar o modelo com o conjunto de dados de treinamento:

model.fit(dataset, epochs=5, steps_per_epoch=10)
Por fim, avalie o modelo usando o conjunto de dados de avaliação:

model.evaluate(eval_dataset, return_dict=True)
1/1 [==============================] - 2s 2s/step - loss: 0.6127
{'loss': 0.6127181053161621}

Próximos passos

Para saber mais sobre TPUStrategy no TensorFlow 2, considere os seguintes recursos:

Para saber mais sobre como personalizar seu treinamento, consulte:

TPUs — ASICs especializados do Google para aprendizado de máquina — estão disponíveis por meio do Google Colab , do TPU Research Cloud e do Cloud TPU .