Optimiseur qui implémente l'algorithme d'Adam.
L'optimisation Adam est une méthode de descente de gradient stochastique basée sur l'estimation adaptative des moments du premier et du deuxième ordre.
Selon Kingma et al., 2014, la méthode est « efficace sur le plan informatique, nécessite peu de mémoire, est invariante au redimensionnement diagonal des gradients et est bien adaptée aux problèmes volumineux en termes de données/paramètres ».
@voir Kingma et al., 2014, Adam : une méthode d'optimisation stochastique .
Constantes
flotter | BETA_ONE_DEFAULT | |
flotter | BETA_TWO_DEFAULT | |
flotter | EPSILON_DEFAULT | |
Chaîne | FIRST_MOMENT | |
flotter | LEARNING_RATE_DEFAULT | |
Chaîne | SECOND_MOMENT |
Constantes héritées
Constructeurs Publics
Méthodes publiques
statique <T étend TType > Op | createAdamMinimize ( Portée de la portée , perte de l'opérande <T>, float learningRate, float betaOne, float betaTwo, float epsilon, Options... options) Crée l'opération qui minimise la perte |
Chaîne | getOptimizerName () Obtenez le nom de l'optimiseur. |
Chaîne | àChaîne () |
Méthodes héritées
Constantes
public statique final float BETA_ONE_DEFAULT
public statique final float BETA_TWO_DEFAULT
public statique final float EPSILON_DEFAULT
Chaîne finale statique publique FIRST_MOMENT
public statique final float LEARNING_RATE_DEFAULT
chaîne finale statique publique SECOND_MOMENT
Constructeurs Publics
public Adam ( Graphique , taux d'apprentissage flottant)
Crée un optimiseur Adam
Paramètres
graphique | le graphique TensorFlow |
---|---|
taux d'apprentissage | le taux d'apprentissage |
public Adam ( Graphique , float learningRate, float betaOne, float betaTwo, float epsilon)
Crée un optimiseur Adam
Paramètres
graphique | le graphique TensorFlow |
---|---|
taux d'apprentissage | le taux d'apprentissage |
bêtaOne | Le taux de décroissance exponentielle pour les estimations du 1er instant. La valeur par défaut est 0,9. |
bêtadeux | Le taux de décroissance exponentielle pour les estimations du 2ème moment. La valeur par défaut est 0,999. |
épsilon | Une petite constante pour la stabilité numérique. Cet epsilon est "epsilon hat" dans l'article de Kingma et Ba (dans la formule juste avant la section 2.1), et non l'epsilon dans l'algorithme 1 de l'article. La valeur par défaut est 1e-8. |
public Adam ( Graphique , nom de la chaîne, taux d'apprentissage flottant)
Crée un optimiseur Adam
Paramètres
graphique | le graphique TensorFlow |
---|---|
nom | le nom de l'optimiseur, par défaut "Adam" |
taux d'apprentissage | le taux d'apprentissage |
public Adam ( Graphique , nom de la chaîne, float learningRate, float betaOne, float betaTwo, float epsilon)
Crée un optimiseur Adam
Paramètres
graphique | le graphique TensorFlow |
---|---|
nom | le nom de l'optimiseur, par défaut "Adam" |
taux d'apprentissage | le taux d'apprentissage |
bêtaOne | Le taux de décroissance exponentielle pour les estimations du 1er instant. La valeur par défaut est 0,9. |
bêtadeux | Le taux de décroissance exponentielle pour les estimations du 2ème moment. La valeur par défaut est 0,999. |
épsilon | Une petite constante pour la stabilité numérique. Cet epsilon est "epsilon hat" dans l'article de Kingma et Ba (dans la formule juste avant la section 2.1), et non l'epsilon dans l'algorithme 1 de l'article. La valeur par défaut est 1e-8. |
Méthodes publiques
public static Op createAdamMinimize (portée de portée , perte d'opérande <T>, float learningRate, float betaOne, float betaTwo, float epsilon, options... options)
Crée l'opération qui minimise la perte
Paramètres
portée | la portée TensorFlow |
---|---|
perte | la perte à minimiser |
taux d'apprentissage | le taux d'apprentissage |
bêtaOne | Le taux de décroissance exponentielle pour les estimations du 1er instant. |
bêtadeux | Le taux de décroissance exponentielle pour les estimations du 2ème moment. |
épsilon | Une petite constante pour la stabilité numérique. Cet epsilon est "epsilon hat" dans l'article de Kingma et Ba (dans la formule juste avant la section 2.1), et non l'epsilon dans l'algorithme 1 de l'article. |
choix | Attributs facultatifs de l'optimiseur |
Retour
- l'Opération qui minimise la perte
Jetés
Exception d'argument illégal | si la portée ne représente pas un graphique |
---|
chaîne publique getOptimizerName ()
Obtenez le nom de l'optimiseur.
Retour
- Le nom de l'optimiseur.