אופטימיזציה המיישמת את אלגוריתם Adadelta.
אופטימיזציה של Adadelta היא שיטת ירידה בשיפוע סטוכסטי המבוססת על שיעור למידה אדפטיבית לכל מימד כדי להתמודד עם שני חסרונות:
- הדעיכה המתמשכת של שיעורי הלמידה לאורך האימון
- הצורך בקצב למידה גלובלי שנבחר באופן ידני
Adadelta היא הרחבה חזקה יותר של Adagrad שמתאימה את קצבי הלמידה על סמך חלון נע של עדכוני שיפוע, במקום לצבור את כל דרגות העבר. בדרך זו, Adadelta ממשיכה ללמוד גם כאשר נעשו עדכונים רבים. בהשוואה לאדגרד, בגרסה המקורית של Adadelta לא צריך להגדיר קצב למידה ראשוני. בגרסה זו, ניתן להגדיר את קצב הלמידה הראשוני, כמו ברוב מייעלים אחרים.
לפי סעיף 4.3 ("שיעורי למידה אפקטיביים"), לקראת סוף האימון מתכנסים גדלי הצעדים ל-1 שהוא למעשה שיעור למידה גבוה שיגרום לסטייה. זה מתרחש רק לקראת סוף האימון מכיוון שהשיפועים וגדלי הצעדים קטנים, וקבוע האפסילונים במונה ובמכנה שולט בהדרגות העבר ועדכוני פרמטרים שמכנסים את קצב הלמידה ל-1.
לפי סעיף 4.4 ("נתוני דיבור"), שבו אומנה רשת עצבית גדולה עם 4 שכבות נסתרות על קורפוס של נתונים באנגלית אמריקאית, נעשה שימוש ב-ADADELTA עם 100 העתקי רשת. האפסילון המשמש הוא 1e-6 עם rho=0.95 אשר התכנס מהר יותר מ-ADAGRAD, על ידי הבנייה הבאה: new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);
קבועים
חוּט | מַצבֵּר | |
חוּט | ACCUMULATOR_UPDATE | |
לָצוּף | EPSILON_DEFAULT | |
לָצוּף | LEARNING_RATE_DEFAULT | |
לָצוּף | RHO_DEFAULT |
קבועים בירושה
בונים ציבוריים
שיטות ציבוריות
חוּט | getOptimizerName () קבל את השם של מייעל האופטימיזציה. |
חוּט | toString () |
שיטות בירושה
קבועים
מחרוזת סופית סטטית ציבורית ACCUMULATOR
מחרוזת סופית סטטית ציבורית ACCUMULATOR_UPDATE
ציפה סופית סטטית ציבורית EPSILON_DEFAULT
ציפה סופית סטטית ציבורית LEARNING_RATE_DEFAULT
ציפה סופית סטטית ציבורית RHO_DEFAULT
בונים ציבוריים
AdaDelta ציבורי ( גרף גרף, Float learningRate)
יוצר AdaDelta Optimizer
פרמטרים
גרָף | גרף TensorFlow |
---|---|
קצב למידה | קצב הלמידה |
AdaDelta ציבורי ( גרף גרף, float learningRate, float rho, float epsilon)
יוצר AdaDelta Optimizer
פרמטרים
גרָף | גרף TensorFlow |
---|---|
קצב למידה | קצב הלמידה |
rho | גורם הריקבון |
אפסילון | אפסילון קבוע המשמש להתניה טובה יותר של עדכון הגראד |
AdaDelta ציבורי ( גרף גרף , שם מחרוזת, Float learningRate)
יוצר AdaDelta Optimizer
פרמטרים
גרָף | גרף TensorFlow |
---|---|
שֵׁם | השם של כלי האופטימיזציה הזה (ברירת המחדל היא 'Adadelta') |
קצב למידה | קצב הלמידה |
Public AdaDelta (גרף גרף , שם מחרוזת, float learningRate, float rho, float epsilon)
יוצר AdaDelta Optimizer
פרמטרים
גרָף | גרף TensorFlow |
---|---|
שֵׁם | השם של כלי האופטימיזציה הזה (ברירת המחדל היא 'Adadelta') |
קצב למידה | קצב הלמידה |
rho | גורם הריקבון |
אפסילון | אפסילון קבוע המשמש להתניה טובה יותר של עדכון הגראד |
שיטות ציבוריות
מחרוזת ציבורית getOptimizerName ()
קבל את השם של מייעל האופטימיזציה.
החזרות
- שם האופטימיזציה.