सीखे गए यूनीग्राम वितरण के साथ उम्मीदवार के नमूने के लिए लेबल तैयार करता है।
एक यूनीग्राम सैंपलर तुरंत डेटा से वितरण बनाने के बजाय किसी फ़ाइल से पढ़े गए या इन-मेमोरी सरणी के रूप में पास किए गए एक निश्चित यूनीग्राम वितरण का उपयोग कर सकता है। वज़न पर विरूपण शक्ति लागू करके वितरण को तिरछा करने का भी एक विकल्प है।
शब्दावली फ़ाइल सीएसवी-जैसे प्रारूप में होनी चाहिए, जिसमें अंतिम फ़ील्ड शब्द से जुड़ा वजन होना चाहिए।
प्रत्येक बैच के लिए, यह ऑप नमूना उम्मीदवार लेबल का एक सेट चुनता है।
प्रति बैच उम्मीदवारों के नमूने लेने के फायदे सरलता और कुशल सघन मैट्रिक्स गुणन की संभावना हैं। नुकसान यह है कि नमूना उम्मीदवारों को संदर्भ और वास्तविक लेबल से स्वतंत्र रूप से चुना जाना चाहिए।
नेस्टेड क्लासेस
कक्षा | फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | FixedUnigramCandidateSampler के लिए वैकल्पिक विशेषताएँ |
स्थिरांक
डोरी | OP_NAME | इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है |
सार्वजनिक तरीके
स्टेटिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर | |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | विरूपण (फ्लोट विरूपण) |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | numReservedIds (लंबी numReservedIds) |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | numShards (लंबे numShards) |
आउटपुट <TInt64> | नमूनाउम्मीदवार () लंबाई num_sampled का एक वेक्टर, जिसमें प्रत्येक तत्व एक नमूना उम्मीदवार की आईडी है। |
आउटपुट < TFloat32 > | नमूनाअपेक्षितगणना () प्रत्येक नमूना उम्मीदवार के लिए लंबाई num_sampled का एक वेक्टर, नमूना उम्मीदवारों के एक बैच में उम्मीदवार के आने की उम्मीद की जाने वाली संख्या का प्रतिनिधित्व करता है। |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | बीज (लंबा बीज) |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | बीज2 (लंबा बीज2) |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | शार्ड (लंबा शार्ड) |
आउटपुट < TFloat32 > | trueExpectedCount () एक बैच_आकार * num_true मैट्रिक्स, यह दर्शाता है कि प्रत्येक उम्मीदवार द्वारा नमूना किए गए उम्मीदवारों के एक बैच में कितनी बार आने की उम्मीद है। |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | यूनीग्राम (सूची<फ्लोट> यूनीग्राम) |
स्थिर फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प | वोकैबफ़ाइल (स्ट्रिंग वोकैबफ़ाइल) |
विरासत में मिली विधियाँ
स्थिरांक
सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME
इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है
सार्वजनिक तरीके
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर बनाएं ( स्कोप स्कोप, ऑपरेंड <TInt64> ट्रूक्लास, लॉन्ग नंबरट्रू, लॉन्ग नंबरसैंपल्ड, बूलियन यूनिक, लॉन्ग रेंजमैक्स, ऑप्शन... विकल्प)
एक नए फिक्स्डयूनिग्रामकैंडिडेटसैंपलर ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
पैरामीटर
दायरा | वर्तमान दायरा |
---|---|
सच्ची कक्षाएँ | एक बैच_आकार * num_true मैट्रिक्स, जिसमें प्रत्येक पंक्ति में संबंधित मूल लेबल में num_true target_classes की आईडी होती हैं। |
अंकसत्य | प्रति संदर्भ वास्तविक लेबलों की संख्या. |
संख्यानमूना | यादृच्छिक रूप से नमूने के लिए उम्मीदवारों की संख्या. |
अद्वितीय | यदि अद्वितीय सत्य है, तो हम अस्वीकृति के साथ नमूना लेते हैं, ताकि एक बैच में सभी नमूना उम्मीदवार अद्वितीय हों। इसके लिए अस्वीकृति के बाद के नमूने की संभावनाओं का अनुमान लगाने के लिए कुछ अनुमान की आवश्यकता होती है। |
रेंजमैक्स | नमूनाकर्ता अंतराल [0, रेंज_मैक्स) से पूर्णांकों का नमूना लेगा। |
विकल्प | वैकल्पिक गुण मान रखता है |
रिटर्न
- फिक्स्डयूनिग्रामकैंडीडेटसैम्पलर का एक नया उदाहरण
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प विरूपण (फ्लोट विरूपण)
पैरामीटर
विरूपण | विरूपण का उपयोग यूनीग्राम संभाव्यता वितरण को तिरछा करने के लिए किया जाता है। आंतरिक यूनीग्राम वितरण में जोड़ने से पहले प्रत्येक वजन को पहले विरूपण की शक्ति तक बढ़ाया जाता है। परिणामस्वरूप, विरूपण = 1.0 नियमित यूनीग्राम नमूना देता है (जैसा कि वोकैब फ़ाइल द्वारा परिभाषित किया गया है), और विरूपण = 0.0 एक समान वितरण देता है। |
---|
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.विकल्प संख्या आरक्षित आईडी (लंबी संख्या आरक्षित आईडी)
पैरामीटर
numReservedIds | वैकल्पिक रूप से उपयोगकर्ताओं द्वारा कुछ आरक्षित आईडी को [0, ..., num_reserved_ids) श्रेणी में जोड़ा जा सकता है। एक उपयोग मामला यह है कि एक विशेष अज्ञात शब्द टोकन का उपयोग आईडी 0 के रूप में किया जाता है। इन आईडी में 0 की नमूना संभावना होगी। |
---|
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.ऑप्शंस संख्याशर्ड्स (लंबी संख्याशार्ड्स)
पैरामीटर
numShards | समांतरता के माध्यम से संपूर्ण गणना को गति देने के लिए मूल श्रेणी के सबसेट से नमूना लेने के लिए एक सैंपलर का उपयोग किया जा सकता है। यह पैरामीटर ('शार्क' के साथ) उन विभाजनों की संख्या को इंगित करता है जिनका उपयोग समग्र गणना में किया जा रहा है। |
---|
सार्वजनिक आउटपुट <TInt64> नमूनाउम्मीदवार ()
लंबाई num_sampled का एक वेक्टर, जिसमें प्रत्येक तत्व एक नमूना उम्मीदवार की आईडी है।
सार्वजनिक आउटपुट < TFloat32 > नमूनाअपेक्षितगणना ()
प्रत्येक नमूना उम्मीदवार के लिए लंबाई num_sampled का एक वेक्टर, नमूना उम्मीदवारों के एक बैच में उम्मीदवार के आने की उम्मीद की जाने वाली संख्या का प्रतिनिधित्व करता है। यदि अद्वितीय = सत्य है, तो यह एक संभावना है।
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.ऑप्शन बीज (लंबा बीज)
पैरामीटर
बीज | यदि बीज या बीज 2 को गैर-शून्य पर सेट किया गया है, तो यादृच्छिक संख्या जनरेटर को दिए गए बीज द्वारा बीजित किया जाता है। अन्यथा, यह एक यादृच्छिक बीज द्वारा बोया जाता है। |
---|
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.ऑप्शंस सीड2 (लंबा सीड2)
पैरामीटर
बीज2 | बीज टकराव से बचने के लिए दूसरा बीज। |
---|
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.ऑप्शंस शार्ड (लंबा शार्ड)
पैरामीटर
ठीकरा | समांतरता के माध्यम से संपूर्ण गणना को गति देने के लिए मूल श्रेणी के सबसेट से नमूना लेने के लिए एक सैंपलर का उपयोग किया जा सकता है। यह पैरामीटर ('num_shards' के साथ) एक सैंपलर ऑप की विशेष विभाजन संख्या को इंगित करता है, जब विभाजन का उपयोग किया जा रहा हो। |
---|
सार्वजनिक आउटपुट < TFloat32 > trueExpectedCount ()
एक बैच_आकार * num_true मैट्रिक्स, यह दर्शाता है कि प्रत्येक उम्मीदवार द्वारा नमूना किए गए उम्मीदवारों के एक बैच में कितनी बार आने की उम्मीद है। यदि अद्वितीय = सत्य है, तो यह एक संभावना है।
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.ऑप्शंस यूनिग्राम (सूची<फ्लोट> यूनिग्राम)
पैरामीटर
यूनीग्राम | यूनीग्राम गणनाओं या संभावनाओं की एक सूची, क्रमिक क्रम में प्रति आईडी एक। वास्तव में vocab_file और unigrams में से एक को इस ऑप को पास किया जाना चाहिए। |
---|
सार्वजनिक स्थैतिक फिक्स्डयूनिग्रामकैंडिडेटसैंपलर.ऑप्शंस वोकैबफाइल (स्ट्रिंग वोकैबफाइल)
पैरामीटर
vocabफ़ाइल | इस फ़ाइल में प्रत्येक मान्य पंक्ति (जिसमें CSV जैसा प्रारूप होना चाहिए) एक मान्य शब्द आईडी से मेल खाती है। आईडी अनुक्रमिक क्रम में हैं, जो num_reserved_ids से शुरू होती हैं। प्रत्येक पंक्ति में अंतिम प्रविष्टि गिनती या सापेक्ष संभावना के अनुरूप मान होने की उम्मीद है। वास्तव में vocab_file और unigrams में से एक को इस ऑप में पास करने की आवश्यकता है। |
---|