AdaDelta

सार्वजनिक वर्ग AdaDelta

ऑप्टिमाइज़र जो एडाडेल्टा एल्गोरिथम को लागू करता है।

एडाडेल्टा ऑप्टिमाइज़ेशन एक स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि है जो दो कमियों को दूर करने के लिए प्रति आयाम अनुकूली सीखने की दर पर आधारित है:

  • पूरे प्रशिक्षण के दौरान सीखने की दर में लगातार गिरावट
  • मैन्युअल रूप से चयनित वैश्विक सीखने की दर की आवश्यकता

एडाडेल्टा, एडाग्रेड का एक अधिक मजबूत विस्तार है जो सभी पिछले ग्रेडिएंट्स को जमा करने के बजाय, ग्रेडिएंट अपडेट की चलती विंडो के आधार पर सीखने की दरों को अनुकूलित करता है। इस तरह, कई अपडेट किए जाने के बाद भी एडडेल्टा सीखना जारी रखता है। एडाग्रेड की तुलना में, एडाडेल्टा के मूल संस्करण में आपको प्रारंभिक सीखने की दर निर्धारित करने की आवश्यकता नहीं है। इस संस्करण में, अधिकांश अन्य ऑप्टिमाइज़र की तरह, प्रारंभिक सीखने की दर निर्धारित की जा सकती है।

धारा 4.3 ("प्रभावी सीखने की दर") के अनुसार, प्रशिक्षण के अंत में चरण आकार 1 में परिवर्तित हो जाते हैं जो प्रभावी रूप से एक उच्च सीखने की दर है जो विचलन का कारण बनेगी। यह केवल प्रशिक्षण के अंत के करीब होता है क्योंकि ग्रेडिएंट और चरण आकार छोटे होते हैं, और अंश और हर में ईपीएसलॉन स्थिरांक पिछले ग्रेडिएंट और पैरामीटर अपडेट पर हावी होते हैं जो सीखने की दर को 1 में परिवर्तित कर देते हैं।

धारा 4.4 ("स्पीच डेटा") के अनुसार, जहां 4 छिपी हुई परतों वाले एक बड़े तंत्रिका नेटवर्क को अमेरिकी अंग्रेजी डेटा के एक संग्रह पर प्रशिक्षित किया गया था, ADADELTA का उपयोग 100 नेटवर्क प्रतिकृतियों के साथ किया गया था। इस्तेमाल किया गया एप्सिलॉन rho = 0.95 के साथ 1e-6 है जो निम्नलिखित निर्माण द्वारा ADAGRAD की तुलना में तेजी से अभिसरण किया गया: new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);

स्थिरांक

डोरी संचायक
डोरी संचायक_अद्यतन
तैरना ईपीएसआईएलओएन_डिफॉल्ट
तैरना LEARNING_RATE_DEFAULT
तैरना RHO_डिफॉल्ट

विरासत में मिले स्थिरांक

सार्वजनिक निर्माता

AdaDelta ( ग्राफ़ ग्राफ़, फ़्लोट लर्निंग रेट)
एक AdaDelta ऑप्टिमाइज़र बनाता है
AdaDelta ( ग्राफ ग्राफ, फ्लोट लर्निंगरेट, फ्लोट आरएचओ, फ्लोट एप्सिलॉन)
एक AdaDelta ऑप्टिमाइज़र बनाता है
AdaDelta ( ग्राफ़ ग्राफ़, स्ट्रिंग नाम, फ़्लोट लर्निंग रेट)
एक AdaDelta ऑप्टिमाइज़र बनाता है
AdaDelta ( ग्राफ ग्राफ, स्ट्रिंग नाम, फ्लोट लर्निंगरेट, फ्लोट आरएचओ, फ्लोट एप्सिलॉन)
एक AdaDelta ऑप्टिमाइज़र बनाता है

सार्वजनिक तरीके

डोरी
गेटऑप्टिमाइज़रनाम ()
अनुकूलक का नाम प्राप्त करें.
डोरी

विरासत में मिली विधियाँ

स्थिरांक

सार्वजनिक स्थैतिक अंतिम स्ट्रिंग संचायक

स्थिर मान: "संचय"

सार्वजनिक स्थैतिक अंतिम स्ट्रिंग ACCUMULATOR_UPDATE

स्थिर मान: "accum_update"

सार्वजनिक स्थैतिक अंतिम फ़्लोट EPSILON_DEFAULT

स्थिर मान: 1.0E-7

सार्वजनिक स्थैतिक अंतिम फ़्लोट LEARNING_RATE_DEFAULT

स्थिर मान: 0.001

सार्वजनिक स्थैतिक अंतिम फ़्लोट RHO_DEFAULT

स्थिर मान: 0.95

सार्वजनिक निर्माता

सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़)

सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, फ़्लोट लर्निंग रेट)

एक AdaDelta ऑप्टिमाइज़र बनाता है

पैरामीटर
ग्राफ टेंसरफ़्लो ग्राफ़
सीखने की दर सीखने की दर

सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, फ़्लोट लर्निंग रेट, फ़्लोट आरएचओ, फ़्लोट एप्सिलॉन)

एक AdaDelta ऑप्टिमाइज़र बनाता है

पैरामीटर
ग्राफ टेंसरफ़्लो ग्राफ़
सीखने की दर सीखने की दर
रो क्षय कारक
एप्सिलॉन ग्रेड अपडेट को बेहतर कंडीशनिंग करने के लिए एक स्थिर एप्सिलॉन का उपयोग किया जाता है

सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, स्ट्रिंग नाम, फ़्लोट लर्निंग रेट)

एक AdaDelta ऑप्टिमाइज़र बनाता है

पैरामीटर
ग्राफ टेंसरफ़्लो ग्राफ़
नाम इस ऑप्टिमाइज़र का नाम (डिफ़ॉल्ट रूप से 'एडाडेल्टा')
सीखने की दर सीखने की दर

सार्वजनिक AdaDelta ( ग्राफ़ ग्राफ़, स्ट्रिंग नाम, फ़्लोट लर्निंगरेट, फ़्लोट rho, फ़्लोट एप्सिलॉन)

एक AdaDelta ऑप्टिमाइज़र बनाता है

पैरामीटर
ग्राफ टेंसरफ़्लो ग्राफ़
नाम इस ऑप्टिमाइज़र का नाम (डिफ़ॉल्ट रूप से 'एडाडेल्टा')
सीखने की दर सीखने की दर
रो क्षय कारक
एप्सिलॉन ग्रेड अपडेट को बेहतर कंडीशनिंग करने के लिए एक स्थिर एप्सिलॉन का उपयोग किया जाता है

सार्वजनिक तरीके

सार्वजनिक स्ट्रिंग getOptimizerName ()

अनुकूलक का नाम प्राप्त करें.

रिटर्न
  • अनुकूलक नाम.

सार्वजनिक स्ट्रिंग toString ()