Treinamento para vários trabalhadores com Estimator

Visão geral

Este tutorial demonstra como tf.distribute.Strategy pode ser usado para treinamento distribuído de vários trabalhadores com tf.estimator . Se você escreve seu código usando tf.estimator e está interessado em escalar além de uma única máquina com alto desempenho, este tutorial é para você.

Antes de começar, leia o guia de estratégia de distribuição . O tutorial de treinamento multi-GPU também é relevante, pois este tutorial usa o mesmo modelo.


Primeiro, configure o TensorFlow e as importações necessárias.

import tensorflow_datasets as tfds
import tensorflow as tf

import os, json

Função de entrada

Este tutorial usa o conjunto de dados MNIST do TensorFlow Datasets . O código aqui é semelhante ao tutorial de treinamento multi-GPU com uma diferença importante: ao usar o Estimator para treinamento de vários trabalhadores, é necessário fragmentar o conjunto de dados pelo número de trabalhadores para garantir a convergência do modelo. Os dados de entrada são fragmentados pelo índice do trabalhador, para que cada trabalhador processe 1/num_workers partes distintas do conjunto de dados.

= 64

def input_fn(mode, input_context=None):
, info = tfds.load(name='mnist',
= (datasets['train'] if mode == tf.estimator.ModeKeys.TRAIN else

def scale(image, label):
= tf.cast(image, tf.float32)
/= 255
return image, label

if input_context:
= mnist_dataset.shard(input_context.num_input_pipelines,

Outra abordagem razoável para alcançar a convergência seria embaralhar o conjunto de dados com sementes distintas em cada trabalhador.

Configuração de vários trabalhadores

Uma das principais diferenças neste tutorial (em comparação com o tutorial de treinamento multi-GPU ) é a configuração de vários trabalhadores. A variável de ambiente TF_CONFIG é a maneira padrão de especificar a configuração do cluster para cada trabalhador que faz parte do cluster.

Existem dois componentes do TF_CONFIG : cluster e task . cluster fornece informações sobre todo o cluster, ou seja, os trabalhadores e os servidores de parâmetros no cluster. task fornece informações sobre a tarefa atual. O primeiro cluster componentes é o mesmo para todos os trabalhadores e servidores de parâmetros no cluster, e a segunda task de componente é diferente em cada trabalhador e servidor de parâmetros e especifica seu próprio type e index . Neste exemplo, o type tarefa é worker e o index de tarefa é 0 .

Para fins de ilustração, este tutorial mostra como definir um TF_CONFIG com 2 workers em localhost . Na prática, você criaria vários trabalhadores em um endereço IP e porta externos e TF_CONFIG em cada trabalhador adequadamente, ou seja, modificaria o index da tarefa .

os.environ['TF_CONFIG'] = json.dumps({
'cluster': {
'worker': ["localhost:12345", "localhost:23456"]
'task': {'type': 'worker', 'index': 0}

Defina o modelo

Escreva as camadas, o otimizador e a função de perda para treinamento. Este tutorial define o modelo com camadas Keras, semelhante ao tutorial de treinamento multi-GPU .

def model_fn(features, labels, mode):
= tf.keras.Sequential([
.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
.keras.layers.Dense(64, activation='relu'),
= model(features, training=False)

if mode == tf.estimator.ModeKeys.PREDICT:
= {'logits': logits}
return tf.estimator.EstimatorSpec(labels=labels, predictions=predictions)

= tf.compat.v1.train.GradientDescentOptimizer(
= tf.keras.losses.SparseCategoricalCrossentropy(
=True, reduction=tf.keras.losses.Reduction.NONE)(labels, logits)
= tf.reduce_sum(loss) * (1. / BATCH_SIZE)
if mode == tf.estimator.ModeKeys.EVAL:
return tf.estimator.EstimatorSpec(mode, loss=loss)

return tf.estimator.EstimatorSpec(
, tf.compat.v1.train.get_or_create_global_step()))


Para treinar o modelo, use uma instância de tf.distribute.experimental.MultiWorkerMirroredStrategy . MultiWorkerMirroredStrategy cria cópias de todas as variáveis ​​nas camadas do modelo em cada dispositivo em todos os trabalhadores. Ele usa CollectiveOps , uma operação do TensorFlow para comunicação coletiva, para agregar gradientes e manter as variáveis ​​em sincronia. O guia tf.distribute.Strategy tem mais detalhes sobre essa estratégia.

strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()
({'loss': 2.234131, 'global_step': 938}, [])

Otimize o desempenho do treinamento

Agora você tem um modelo e um estimador com capacidade para vários trabalhadores, desenvolvido por tf.distribute.Strategy . Você pode tentar as seguintes técnicas para otimizar o desempenho do treinamento de vários trabalhadores:

  • Aumente o tamanho do lote: O tamanho do lote especificado aqui é por GPU. Em geral, é aconselhável o maior tamanho de lote que se ajuste à memória da GPU.
  • Cast variáveis: Cast as variáveis ​​para tf.float se possível. O modelo oficial da ResNet inclui um exemplo de como isso pode ser feito.
  • Use comunicação coletiva: MultiWorkerMirroredStrategy fornece várias implementações de comunicação coletiva .

    • O RING implementa coletivos baseados em anel usando gRPC como a camada de comunicação entre hosts.
    • NCCL usa NCCL da Nvidia para implementar coletivos.
    • AUTO adia a escolha para o tempo de execução.

    A melhor escolha de implementação coletiva depende do número e tipo de GPUs e da interconexão de rede no cluster. Para substituir a escolha automática, especifique um valor válido para o parâmetro de communication do construtor de MultiWorkerMirroredStrategy , por exemplo, communication=tf.distribute.experimental.CollectiveCommunication.NCCL .

Visite a seção Desempenho no guia para saber mais sobre outras estratégias e ferramentas que você pode usar para otimizar o desempenho de seus modelos do TensorFlow.

Outros exemplos de código

  1. Exemplo de ponta a ponta para treinamento de vários trabalhadores no tensorflow/ecossistema usando modelos do Kubernetes. Este exemplo começa com um modelo Keras e o converte em um estimador usando a API tf.keras.estimator.model_to_estimator .
  2. Modelos oficiais , muitos dos quais podem ser configurados para executar várias estratégias de distribuição.