इनपुट टेक्स्ट को स्रोत एन्कोडिंग से गंतव्य एन्कोडिंग में ट्रांसकोड करें।
इनपुट किसी भी आकार का एक स्ट्रिंग टेंसर है। आउटपुट उसी आकार का एक स्ट्रिंग टेंसर है जिसमें ट्रांसकोडेड स्ट्रिंग्स होती हैं। आउटपुट स्ट्रिंग्स हमेशा वैध यूनिकोड होती हैं। यदि इनपुट में अमान्य एन्कोडिंग स्थितियाँ हैं, तो `त्रुटियाँ` विशेषता उनसे निपटने के लिए नीति निर्धारित करती है। यदि डिफ़ॉल्ट त्रुटि-हैंडलिंग नीति का उपयोग किया जाता है, तो आउटपुट में अमान्य स्वरूपण को `replacement_char` द्वारा प्रतिस्थापित किया जाएगा। यदि त्रुटियों की नीति 'अनदेखा' करने की है, तो इनपुट में किसी भी अमान्य एन्कोडिंग स्थिति को छोड़ दिया जाता है और आउटपुट में शामिल नहीं किया जाता है। यदि यह `सख्त` पर सेट है तो किसी भी अमान्य फ़ॉर्मेटिंग के परिणामस्वरूप InvalidArgument त्रुटि होगी।
इस ऑपरेशन का उपयोग इनपुट के लिए सही फ़ॉर्मेटिंग लागू करने के लिए `आउटपुट_एनकोडिंग = इनपुट_एनकोडिंग` के साथ किया जा सकता है, भले ही वे पहले से ही वांछित एन्कोडिंग में हों।
यदि एन्कोडिंग निर्धारित करने के लिए आवश्यक बाइट ऑर्डर मार्क द्वारा इनपुट उपसर्ग किया गया है (उदाहरण के लिए यदि एन्कोडिंग यूटीएफ -16 है और बीओएम बड़े-एंडियन को इंगित करता है), तो उस बीओएम का उपभोग किया जाएगा और आउटपुट में उत्सर्जित नहीं किया जाएगा। यदि इनपुट एन्कोडिंग को स्पष्ट एंडियननेस (जैसे यूटीएफ-16-बीई) के साथ चिह्नित किया गया है, तो बीओएम को नॉन-ब्रेकिंग-स्पेस के रूप में व्याख्या किया जाता है और आउटपुट में संरक्षित किया जाता है (हमेशा यूटीएफ-8 सहित)।
अंतिम परिणाम यह है कि यदि इनपुट को स्पष्ट एंडियननेस के रूप में चिह्नित किया गया है तो ट्रांसकोडिंग स्रोत के सभी कोडपॉइंट के लिए वफादार है। यदि इसे स्पष्ट एंडियननेस के साथ चिह्नित नहीं किया गया है, तो बीओएम को स्ट्रिंग का हिस्सा नहीं बल्कि मेटाडेटा के रूप में माना जाता है, और इसलिए इसे आउटपुट में संरक्षित नहीं किया जाता है।
उदाहरण:
>>> tf.strings.unicode_transcode(["Hello", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE")
नेस्टेड क्लासेस
कक्षा | यूनिकोडट्रांसकोड.विकल्प | UnicodeTranscode के लिए वैकल्पिक विशेषताएँ |
स्थिरांक
डोरी | OP_NAME | इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है |
सार्वजनिक तरीके
आउटपुट < TString > | आउटपुट के रूप में () टेंसर का प्रतीकात्मक हैंडल लौटाता है। |
स्थिर यूनिकोडट्रांसकोड | |
स्थिर यूनिकोडट्रांसकोड.विकल्प | त्रुटियाँ (स्ट्रिंग त्रुटियाँ) |
आउटपुट < TString > | आउटपुट () एक स्ट्रिंग टेंसर जिसमें यूनिकोड टेक्स्ट होता है जिसे `आउटपुट_एनकोडिंग` का उपयोग करके एन्कोड किया जाता है। |
स्थिर यूनिकोडट्रांसकोड.विकल्प | रिप्लेसकंट्रोल कैरेक्टर्स (बूलियन रिप्लेसकंट्रोल कैरेक्टर्स) |
स्थिर यूनिकोडट्रांसकोड.विकल्प | रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार) |
विरासत में मिली विधियाँ
स्थिरांक
सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME
इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है
सार्वजनिक तरीके
सार्वजनिक आउटपुट < TString > asOutput ()
टेंसर का प्रतीकात्मक हैंडल लौटाता है।
TensorFlow संचालन के इनपुट किसी अन्य TensorFlow ऑपरेशन के आउटपुट हैं। इस पद्धति का उपयोग एक प्रतीकात्मक हैंडल प्राप्त करने के लिए किया जाता है जो इनपुट की गणना का प्रतिनिधित्व करता है।
सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, स्ट्रिंग आउटपुट एन्कोडिंग, विकल्प... विकल्प)
एक नए यूनिकोडट्रांसकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
पैरामीटर
दायरा | वर्तमान दायरा |
---|---|
इनपुट | संसाधित किया जाने वाला पाठ. कोई भी आकार हो सकता है. |
इनपुट एन्कोडिंग | इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`। |
आउटपुट एन्कोडिंग | आउटपुट में उपयोग करने के लिए यूनिकोड एन्कोडिंग। `"UTF-8", "UTF-16-BE", "UTF-32-BE"` में से एक होना चाहिए। मल्टी-बाइट एन्कोडिंग बड़े-एंडियन होंगे। |
विकल्प | वैकल्पिक गुण मान रखता है |
रिटर्न
- यूनिकोडट्रांसकोड का एक नया उदाहरण
सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड.विकल्प त्रुटियाँ (स्ट्रिंग त्रुटियाँ)
पैरामीटर
त्रुटियाँ | इनपुट में अमान्य फ़ॉर्मेटिंग पाए जाने पर नीति प्रबंधन में त्रुटि। 'सख्त' का मान ऑपरेशन के कारण किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करेगा। 'रिप्लेस' (डिफ़ॉल्ट) का मान ऑपरेशन को इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को 'रिप्लेसमेंट_चार' कोडपॉइंट से बदलने का कारण बनेगा। 'अनदेखा' का मान ऑपरेशन के कारण इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को छोड़ देगा और कोई संबंधित आउटपुट वर्ण उत्पन्न नहीं करेगा। |
---|
सार्वजनिक आउटपुट < TString > आउटपुट ()
एक स्ट्रिंग टेंसर जिसमें यूनिकोड टेक्स्ट होता है जिसे `आउटपुट_एनकोडिंग` का उपयोग करके एन्कोड किया जाता है।
सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड.ऑप्शंस रिप्लेसकंट्रोलकैरेक्टर्स (बूलियन रिप्लेसकंट्रोलकैरेक्टर्स)
पैरामीटर
ReplaceControlCharacters | C0 नियंत्रण वर्ण (00-1F) को `replacement_char` से बदलना है या नहीं। डिफ़ॉल्ट ग़लत है. |
---|
सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड.ऑप्शंस रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार)
पैरामीटर
प्रतिस्थापनचार | `errors='replace'` होने पर इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग के स्थान पर प्रतिस्थापन वर्ण कोडपॉइंट का उपयोग किया जाना चाहिए। किसी भी वैध यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन वर्ण 0xFFFD या U+65533 है।) ध्यान दें कि UTF-8 के लिए, 1 बाइट में व्यक्त होने वाले प्रतिस्थापन वर्ण, जैसे '', को पास करने से स्रोत के साथ स्ट्रिंग संरेखण सुरक्षित रहेगा क्योंकि अमान्य बाइट्स को 1-बाइट प्रतिस्थापन के साथ बदल दिया जाएगा। UTF-16-BE और UTF-16-LE के लिए, कोई भी 1 या 2 बाइट प्रतिस्थापन वर्ण स्रोत के साथ बाइट संरेखण को सुरक्षित रखेगा। |
---|