Formation multi-travailleurs avec Estimateur


Ce didacticiel montre comment tf.distribute.Strategy peut être utilisé pour la formation distribuée multi-travailleurs avec tf.estimator . Si vous écrivez votre code à l'aide tf.estimator et que vous souhaitez évoluer au-delà d'une seule machine avec des performances élevées, ce didacticiel est fait pour vous.

Avant de commencer, veuillez lire le guide de stratégie de distribution . Le tutoriel de formation multi-GPU est également pertinent, car ce tutoriel utilise le même modèle.


Tout d'abord, configurez TensorFlow et les importations nécessaires.

import tensorflow_datasets as tfds
import tensorflow as tf

import os, json

Fonction d'entrée

Ce didacticiel utilise l'ensemble de données MNIST de TensorFlow Datasets . Le code ici est similaire au didacticiel de formation multi-GPU avec une différence clé : lors de l'utilisation d'Estimator pour la formation multi-travailleurs, il est nécessaire de diviser l'ensemble de données par le nombre de travailleurs pour assurer la convergence du modèle. Les données d'entrée sont partitionnées par index de travail, de sorte que chaque travail traite 1/num_workers des parties distinctes de l'ensemble de données.

= 64

def input_fn(mode, input_context=None):
, info = tfds.load(name='mnist',
= (datasets['train'] if mode == tf.estimator.ModeKeys.TRAIN else

def scale(image, label):
= tf.cast(image, tf.float32)
/= 255
return image, label

if input_context:
= mnist_dataset.shard(input_context.num_input_pipelines,

Une autre approche raisonnable pour parvenir à la convergence consisterait à mélanger l'ensemble de données avec des graines distinctes pour chaque travailleur.

Configuration multi-travailleurs

L'une des principales différences dans ce didacticiel (par rapport au didacticiel de formation multi-GPU ) est la configuration multi-travailleur. La variable d'environnement TF_CONFIG est le moyen standard de spécifier la configuration du cluster à chaque travailleur faisant partie du cluster.

Il existe deux composants de TF_CONFIG : cluster et task . cluster fournit des informations sur l'ensemble du cluster, à savoir les nœuds de calcul et les serveurs de paramètres du cluster. task fournit des informations sur la tâche en cours. Le premier cluster composants est le même pour tous les nœuds de calcul et serveurs de paramètres du cluster, et la deuxième task de composant est différente sur chaque nœud de calcul et serveur de paramètres et spécifie ses propres type et index . Dans cet exemple, le type de tâche est worker et l' index tâche est 0 .

À des fins d'illustration, ce tutoriel montre comment définir un TF_CONFIG avec 2 workers sur localhost . En pratique, vous créeriez plusieurs travailleurs sur une adresse IP et un port externes, et TF_CONFIG sur chaque travailleur de manière appropriée, c'est-à-dire modifier l' index la tâche.

os.environ['TF_CONFIG'] = json.dumps({
'cluster': {
'worker': ["localhost:12345", "localhost:23456"]
'task': {'type': 'worker', 'index': 0}

Définir le modèle

Écrivez les couches, l'optimiseur et la fonction de perte pour l'entraînement. Ce didacticiel définit le modèle avec des couches Keras, similaire au didacticiel de formation multi-GPU .

def model_fn(features, labels, mode):
= tf.keras.Sequential([
.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
.keras.layers.Dense(64, activation='relu'),
= model(features, training=False)

if mode == tf.estimator.ModeKeys.PREDICT:
= {'logits': logits}
return tf.estimator.EstimatorSpec(labels=labels, predictions=predictions)

= tf.compat.v1.train.GradientDescentOptimizer(
= tf.keras.losses.SparseCategoricalCrossentropy(
=True, reduction=tf.keras.losses.Reduction.NONE)(labels, logits)
= tf.reduce_sum(loss) * (1. / BATCH_SIZE)
if mode == tf.estimator.ModeKeys.EVAL:
return tf.estimator.EstimatorSpec(mode, loss=loss)

return tf.estimator.EstimatorSpec(
, tf.compat.v1.train.get_or_create_global_step()))


Pour entraîner le modèle, utilisez une instance de tf.distribute.experimental.MultiWorkerMirroredStrategy . MultiWorkerMirroredStrategy crée des copies de toutes les variables dans les couches du modèle sur chaque appareil sur tous les travailleurs. Il utilise CollectiveOps , une opération TensorFlow pour la communication collective, pour agréger les gradients et synchroniser les variables. Le guide tf.distribute.Strategy contient plus de détails sur cette stratégie.

strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()
({'loss': 2.234131, 'global_step': 938}, [])

Optimiser les performances d'entraînement

Vous disposez maintenant d'un modèle et d'un estimateur multi-travailleurs optimisés par tf.distribute.Strategy . Vous pouvez essayer les techniques suivantes pour optimiser les performances de la formation multi-travailleur :

  • Augmenter la taille du lot : la taille du lot spécifiée ici est par GPU. En général, la plus grande taille de lot adaptée à la mémoire GPU est recommandée.
  • Variables de cast : Castez les variables en tf.float si possible. Le modèle officiel ResNet comprend un exemple de la façon dont cela peut être fait.
  • Utiliser la communication collective : MultiWorkerMirroredStrategy fournit plusieurs implémentations de communication collective .

    • RING implémente des collectifs basés sur des anneaux en utilisant gRPC comme couche de communication entre hôtes.
    • NCCL utilise le NCCL de Nvidia pour implémenter des collectifs.
    • AUTO reporte le choix à l'exécution.

    Le meilleur choix d'implémentation collective dépend du nombre et du type de GPU, ainsi que de l'interconnexion réseau dans le cluster. Pour remplacer le choix automatique, spécifiez une valeur valide pour le paramètre de communication du constructeur de MultiWorkerMirroredStrategy , par exemple communication=tf.distribute.experimental.CollectiveCommunication.NCCL .

Consultez la section Performances du guide pour en savoir plus sur les autres stratégies et outils que vous pouvez utiliser pour optimiser les performances de vos modèles TensorFlow.

Autres exemples de code

  1. Exemple de bout en bout pour la formation multi-travailleurs dans tensorflow/écosystème à l'aide de modèles Kubernetes. Cet exemple commence par un modèle Keras et le convertit en estimateur à l'aide de l'API tf.keras.estimator.model_to_estimator .
  2. Modèles officiels , dont beaucoup peuvent être configurés pour exécuter plusieurs stratégies de distribution.