ऑप्टिमाइज़र जो एडाडेल्टा एल्गोरिथम को लागू करता है।
एडाडेल्टा ऑप्टिमाइज़ेशन एक स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि है जो दो कमियों को दूर करने के लिए प्रति आयाम अनुकूली सीखने की दर पर आधारित है:
- पूरे प्रशिक्षण के दौरान सीखने की दर में लगातार गिरावट
- मैन्युअल रूप से चयनित वैश्विक सीखने की दर की आवश्यकता
एडाडेल्टा, एडाग्रेड का एक अधिक मजबूत विस्तार है जो सभी पिछले ग्रेडिएंट्स को जमा करने के बजाय, ग्रेडिएंट अपडेट की चलती विंडो के आधार पर सीखने की दरों को अनुकूलित करता है। इस तरह, कई अपडेट किए जाने के बाद भी एडडेल्टा सीखना जारी रखता है। एडाग्रेड की तुलना में, एडाडेल्टा के मूल संस्करण में आपको प्रारंभिक सीखने की दर निर्धारित करने की आवश्यकता नहीं है। इस संस्करण में, अधिकांश अन्य ऑप्टिमाइज़र की तरह, प्रारंभिक सीखने की दर निर्धारित की जा सकती है।
धारा 4.3 ("प्रभावी सीखने की दर") के अनुसार, प्रशिक्षण के अंत में चरण आकार 1 में परिवर्तित हो जाते हैं जो प्रभावी रूप से एक उच्च सीखने की दर है जो विचलन का कारण बनेगी। यह केवल प्रशिक्षण के अंत के करीब होता है क्योंकि ग्रेडिएंट और चरण आकार छोटे होते हैं, और अंश और हर में ईपीएसलॉन स्थिरांक पिछले ग्रेडिएंट और पैरामीटर अपडेट पर हावी होते हैं जो सीखने की दर को 1 में परिवर्तित कर देते हैं।
धारा 4.4 ("स्पीच डेटा") के अनुसार, जहां 4 छिपी हुई परतों वाले एक बड़े तंत्रिका नेटवर्क को अमेरिकी अंग्रेजी डेटा के एक संग्रह पर प्रशिक्षित किया गया था, ADADELTA का उपयोग 100 नेटवर्क प्रतिकृतियों के साथ किया गया था। इस्तेमाल किया गया एप्सिलॉन rho = 0.95 के साथ 1e-6 है जो निम्नलिखित निर्माण द्वारा ADAGRAD की तुलना में तेजी से अभिसरण किया गया: new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);
स्थिरांक
डोरी | संचायक | |
डोरी | संचायक_अद्यतन | |
तैरना | ईपीएसआईएलओएन_डिफॉल्ट | |
तैरना | LEARNING_RATE_DEFAULT | |
तैरना | RHO_डिफॉल्ट |
विरासत में मिले स्थिरांक
सार्वजनिक निर्माता
सार्वजनिक तरीके
डोरी | गेटऑप्टिमाइज़रनाम () अनुकूलक का नाम प्राप्त करें. |
डोरी | स्ट्रिंग () |
विरासत में मिली विधियाँ
स्थिरांक
सार्वजनिक स्थैतिक अंतिम स्ट्रिंग संचायक
सार्वजनिक स्थैतिक अंतिम स्ट्रिंग ACCUMULATOR_UPDATE
सार्वजनिक स्थैतिक अंतिम फ़्लोट EPSILON_DEFAULT
सार्वजनिक स्थैतिक अंतिम फ़्लोट LEARNING_RATE_DEFAULT
सार्वजनिक स्थैतिक अंतिम फ़्लोट RHO_DEFAULT
सार्वजनिक निर्माता
सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, फ़्लोट लर्निंग रेट)
एक AdaDelta ऑप्टिमाइज़र बनाता है
पैरामीटर
ग्राफ | टेंसरफ़्लो ग्राफ़ |
---|---|
सीखने की दर | सीखने की दर |
सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, फ़्लोट लर्निंग रेट, फ़्लोट आरएचओ, फ़्लोट एप्सिलॉन)
एक AdaDelta ऑप्टिमाइज़र बनाता है
पैरामीटर
ग्राफ | टेंसरफ़्लो ग्राफ़ |
---|---|
सीखने की दर | सीखने की दर |
रो | क्षय कारक |
एप्सिलॉन | ग्रेड अपडेट को बेहतर कंडीशनिंग करने के लिए एक स्थिर एप्सिलॉन का उपयोग किया जाता है |
सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, स्ट्रिंग नाम, फ़्लोट लर्निंग रेट)
एक AdaDelta ऑप्टिमाइज़र बनाता है
पैरामीटर
ग्राफ | टेंसरफ़्लो ग्राफ़ |
---|---|
नाम | इस ऑप्टिमाइज़र का नाम (डिफ़ॉल्ट रूप से 'एडाडेल्टा') |
सीखने की दर | सीखने की दर |
सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, स्ट्रिंग नाम, फ़्लोट लर्निंगरेट, फ़्लोट rho, फ़्लोट एप्सिलॉन)
एक AdaDelta ऑप्टिमाइज़र बनाता है
पैरामीटर
ग्राफ | टेंसरफ़्लो ग्राफ़ |
---|---|
नाम | इस ऑप्टिमाइज़र का नाम (डिफ़ॉल्ट रूप से 'एडाडेल्टा') |
सीखने की दर | सीखने की दर |
रो | क्षय कारक |
एप्सिलॉन | ग्रेड अपडेट को बेहतर कंडीशनिंग करने के लिए एक स्थिर एप्सिलॉन का उपयोग किया जाता है |
सार्वजनिक तरीके
सार्वजनिक स्ट्रिंग getOptimizerName ()
अनुकूलक का नाम प्राप्त करें.
रिटर्न
- अनुकूलक नाम.