Adam

classe publique Adam

Optimiseur qui implémente l'algorithme d'Adam.

L'optimisation Adam est une méthode de descente de gradient stochastique basée sur l'estimation adaptative des moments du premier et du deuxième ordre.

Selon Kingma et al., 2014, la méthode est « efficace sur le plan informatique, nécessite peu de mémoire, est invariante au redimensionnement diagonal des gradients et est bien adaptée aux problèmes volumineux en termes de données/paramètres ».

@voir Kingma et al., 2014, Adam : une méthode d'optimisation stochastique .

Constantes

flotter BETA_ONE_DEFAULT
flotter BETA_TWO_DEFAULT
flotter EPSILON_DEFAULT
Chaîne FIRST_MOMENT
flotter LEARNING_RATE_DEFAULT
Chaîne SECOND_MOMENT

Constantes héritées

Constructeurs Publics

Adam ( Graphique graphique)
Crée un optimiseur Adam
Adam ( Graphique , taux d'apprentissage flottant)
Crée un optimiseur Adam
Adam ( Graphique , float learningRate, float betaOne, float betaTwo, float epsilon)
Crée un optimiseur Adam
Adam ( Graphique , nom de la chaîne, taux d'apprentissage flottant)
Crée un optimiseur Adam
Adam ( Graphique , nom de la chaîne, float learningRate, float betaOne, float betaTwo, float epsilon)
Crée un optimiseur Adam

Méthodes publiques

statique <T étend TType > Op
createAdamMinimize ( Portée de la portée , perte de l'opérande <T>, float learningRate, float betaOne, float betaTwo, float epsilon, Options... options)
Crée l'opération qui minimise la perte
Chaîne
getOptimizerName ()
Obtenez le nom de l'optimiseur.
Chaîne

Méthodes héritées

Constantes

public statique final float BETA_ONE_DEFAULT

Valeur constante : 0,9

public statique final float BETA_TWO_DEFAULT

Valeur constante : 0,999

public statique final float EPSILON_DEFAULT

Valeur constante : 1,0E-8

Chaîne finale statique publique FIRST_MOMENT

Valeur constante : "m"

public statique final float LEARNING_RATE_DEFAULT

Valeur constante : 0,001

chaîne finale statique publique SECOND_MOMENT

Valeur constante : "v"

Constructeurs Publics

public Adam ( Graphique )

Crée un optimiseur Adam

Paramètres
graphique le graphique TensorFlow

public Adam ( Graphique , taux d'apprentissage flottant)

Crée un optimiseur Adam

Paramètres
graphique le graphique TensorFlow
taux d'apprentissage le taux d'apprentissage

public Adam ( Graphique , float learningRate, float betaOne, float betaTwo, float epsilon)

Crée un optimiseur Adam

Paramètres
graphique le graphique TensorFlow
taux d'apprentissage le taux d'apprentissage
bêtaOne Le taux de décroissance exponentielle pour les estimations du 1er instant. La valeur par défaut est 0,9.
bêtadeux Le taux de décroissance exponentielle pour les estimations du 2ème moment. La valeur par défaut est 0,999.
épsilon Une petite constante pour la stabilité numérique. Cet epsilon est "epsilon hat" dans l'article de Kingma et Ba (dans la formule juste avant la section 2.1), et non l'epsilon dans l'algorithme 1 de l'article. La valeur par défaut est 1e-8.

public Adam ( Graphique , nom de la chaîne, taux d'apprentissage flottant)

Crée un optimiseur Adam

Paramètres
graphique le graphique TensorFlow
nom le nom de l'optimiseur, par défaut "Adam"
taux d'apprentissage le taux d'apprentissage

public Adam ( Graphique , nom de la chaîne, float learningRate, float betaOne, float betaTwo, float epsilon)

Crée un optimiseur Adam

Paramètres
graphique le graphique TensorFlow
nom le nom de l'optimiseur, par défaut "Adam"
taux d'apprentissage le taux d'apprentissage
bêtaOne Le taux de décroissance exponentielle pour les estimations du 1er instant. La valeur par défaut est 0,9.
bêtadeux Le taux de décroissance exponentielle pour les estimations du 2ème moment. La valeur par défaut est 0,999.
épsilon Une petite constante pour la stabilité numérique. Cet epsilon est "epsilon hat" dans l'article de Kingma et Ba (dans la formule juste avant la section 2.1), et non l'epsilon dans l'algorithme 1 de l'article. La valeur par défaut est 1e-8.

Méthodes publiques

public static Op createAdamMinimize (portée de portée , perte d'opérande <T>, float learningRate, float betaOne, float betaTwo, float epsilon, options... options)

Crée l'opération qui minimise la perte

Paramètres
portée la portée TensorFlow
perte la perte à minimiser
taux d'apprentissage le taux d'apprentissage
bêtaOne Le taux de décroissance exponentielle pour les estimations du 1er instant.
bêtadeux Le taux de décroissance exponentielle pour les estimations du 2ème moment.
épsilon Une petite constante pour la stabilité numérique. Cet epsilon est "epsilon hat" dans l'article de Kingma et Ba (dans la formule juste avant la section 2.1), et non l'epsilon dans l'algorithme 1 de l'article.
choix Attributs facultatifs de l'optimiseur
Retour
  • l'Opération qui minimise la perte
Jetés
Exception d'argument illégal si la portée ne représente pas un graphique

chaîne publique getOptimizerName ()

Obtenez le nom de l'optimiseur.

Retour
  • Le nom de l'optimiseur.

chaîne publique versString ()