UnicodeTranscode

পাবলিক ফাইনাল ক্লাস ইউনিকোড ট্রান্সকোড

একটি উৎস এনকোডিং থেকে একটি গন্তব্য এনকোডিং এ ইনপুট পাঠ্য ট্রান্সকোড করুন।

ইনপুট হল যেকোনো আকৃতির একটি স্ট্রিং টেনসর। আউটপুট হল একই আকৃতির একটি স্ট্রিং টেনসর যাতে ট্রান্সকোড করা স্ট্রিং থাকে। আউটপুট স্ট্রিং সবসময় বৈধ ইউনিকোড. যদি ইনপুটে অবৈধ এনকোডিং অবস্থান থাকে, তাহলে 'ত্রুটি' অ্যাট্রিবিউট তাদের মোকাবেলা করার নীতি নির্ধারণ করে। যদি ডিফল্ট ত্রুটি-হ্যান্ডলিং নীতি ব্যবহার করা হয়, তাহলে অবৈধ বিন্যাস আউটপুটে `প্রতিস্থাপন_চার` দ্বারা প্রতিস্থাপিত হবে। যদি ত্রুটি নীতি 'উপেক্ষা' করতে হয়, তাহলে ইনপুটে যেকোনও অবৈধ এনকোডিং পজিশন বাদ দেওয়া হয় এবং আউটপুটে অন্তর্ভুক্ত করা হয় না। যদি এটি `কঠোর` তে সেট করা হয় তাহলে কোনো অবৈধ বিন্যাস একটি InvalidArgument ত্রুটির কারণ হবে৷

এই ক্রিয়াকলাপটি `আউটপুট_এনকোডিং = ইনপুট_এনকোডিং` এর সাথে ব্যবহার করা যেতে পারে ইনপুটগুলির জন্য সঠিক বিন্যাস প্রয়োগ করতে এমনকি যদি সেগুলি ইতিমধ্যেই পছন্দসই এনকোডিংয়ে থাকে।

যদি ইনপুটটি এনকোডিং নির্ধারণের জন্য প্রয়োজনীয় বাইট অর্ডার মার্ক দ্বারা প্রিফিক্স করা হয় (যেমন যদি এনকোডিংটি UTF-16 হয় এবং BOM বিগ-এন্ডিয়ান নির্দেশ করে), তাহলে সেই BOM ব্যবহার করা হবে এবং আউটপুটে নির্গত হবে না। যদি ইনপুট এনকোডিং একটি সুস্পষ্ট endianness (যেমন UTF-16-BE) দ্বারা চিহ্নিত করা হয়, তাহলে BOM-কে একটি নন-ব্রেকিং-স্পেস হিসাবে ব্যাখ্যা করা হয় এবং আউটপুটে সংরক্ষণ করা হয় (ইউটিএফ-8-এর জন্য সর্বদা সহ)।

শেষ ফলাফল হল যে যদি ইনপুটটি একটি সুস্পষ্ট endianness হিসাবে চিহ্নিত করা হয় তবে ট্রান্সকোডিং উৎসের সমস্ত কোডপয়েন্টের জন্য বিশ্বস্ত। যদি এটি একটি সুস্পষ্ট endianness সঙ্গে চিহ্নিত না হয়, BOM নিজেই স্ট্রিং এর অংশ হিসাবে বিবেচিত হয় না কিন্তু মেটাডেটা হিসাবে, এবং তাই আউটপুটে সংরক্ষিত হয় না।

উদাহরণ:

>>> tf.strings.unicode_transcode(["Hello", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() অ্যারে([b'A', b'B' , b'C'], dtype=object)

নেস্টেড ক্লাস

ক্লাস UnicodeTranscode.Options UnicodeTranscode এর জন্য ঐচ্ছিক বৈশিষ্ট্য

ধ্রুবক

স্ট্রিং OP_NAME এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

পাবলিক পদ্ধতি

আউটপুট < TString >
আউটপুট হিসাবে ()
টেনসরের প্রতীকী হ্যান্ডেল ফেরত দেয়।
স্ট্যাটিক ইউনিকোড ট্রান্সকোড
তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, স্ট্রিং আউটপুট এনকোডিং, বিকল্প... বিকল্প)
একটি নতুন UnicodeTranscode অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানার পদ্ধতি।
স্ট্যাটিক UnicodeTranscode.Options
ত্রুটি (স্ট্রিং ত্রুটি)
আউটপুট < TString >
আউটপুট ()
`আউটপুট_এনকোডিং` ব্যবহার করে এনকোড করা ইউনিকোড পাঠ্য ধারণকারী একটি স্ট্রিং টেনসর।
স্ট্যাটিক UnicodeTranscode.Options
রিপ্লেস কন্ট্রোল ক্যারেক্টার (বুলিয়ান রিপ্লেস কন্ট্রোল ক্যারেক্টার)
স্ট্যাটিক UnicodeTranscode.Options
প্রতিস্থাপন চর (দীর্ঘ প্রতিস্থাপন চর)

উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি

ধ্রুবক

সর্বজনীন স্ট্যাটিক চূড়ান্ত স্ট্রিং OP_NAME

এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

ধ্রুবক মান: "ইউনিকোড ট্রান্সকোড"

পাবলিক পদ্ধতি

সর্বজনীন আউটপুট < TString > asOutput ()

টেনসরের প্রতীকী হ্যান্ডেল ফেরত দেয়।

TensorFlow অপারেশনের ইনপুট হল অন্য TensorFlow অপারেশনের আউটপুট। এই পদ্ধতিটি একটি প্রতীকী হ্যান্ডেল পেতে ব্যবহৃত হয় যা ইনপুটের গণনাকে প্রতিনিধিত্ব করে।

পাবলিক স্ট্যাটিক ইউনিকোড ট্রান্সকোড তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, স্ট্রিং আউটপুট এনকোডিং, বিকল্প... বিকল্প)

একটি নতুন UnicodeTranscode অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানার পদ্ধতি।

পরামিতি
সুযোগ বর্তমান সুযোগ
ইনপুট পাঠ্য প্রক্রিয়া করা হবে. যে কোন আকৃতি থাকতে পারে।
ইনপুট এনকোডিং ইনপুট স্ট্রিং এর টেক্সট এনকোডিং। এটি ICU ucnv অ্যালগরিদমিক রূপান্তরকারী দ্বারা সমর্থিত যেকোন এনকোডিং। উদাহরণ: `"UTF-16", "US ASCII", "UTF-8"`৷
আউটপুট এনকোডিং আউটপুটে ব্যবহার করার জন্য ইউনিকোড এনকোডিং। অবশ্যই `"UTF-8", "UTF-16-BE", "UTF-32-BE"` এর মধ্যে একটি হতে হবে৷ মাল্টি-বাইট এনকোডিং বড়-এন্ডিয়ান হবে।
বিকল্প ঐচ্ছিক বৈশিষ্ট্য মান বহন করে
রিটার্নস
  • ইউনিকোডট্রান্সকোডের একটি নতুন উদাহরণ

পাবলিক স্ট্যাটিক UnicodeTranscode.Options ত্রুটি (স্ট্রিং ত্রুটি)

পরামিতি
ত্রুটি ইনপুটে অবৈধ বিন্যাস পাওয়া গেলে নীতি পরিচালনার ত্রুটি৷ 'কঠোর' মান অপারেশনটিকে যে কোনো অবৈধ ইনপুট বিন্যাসে একটি InvalidArgument ত্রুটি তৈরি করবে। 'প্রতিস্থাপন' (ডিফল্ট) এর একটি মান অপারেশনটিকে ইনপুটে যেকোন অবৈধ বিন্যাসকে `প্রতিস্থাপন_চার` কোডপয়েন্ট দিয়ে প্রতিস্থাপন করবে। 'উপেক্ষা' এর একটি মান অপারেশনটিকে ইনপুটে কোনো অবৈধ বিন্যাস এড়িয়ে যেতে এবং কোনো সংশ্লিষ্ট আউটপুট অক্ষর তৈরি করবে না।

সর্বজনীন আউটপুট < TString > আউটপুট ()

`আউটপুট_এনকোডিং` ব্যবহার করে এনকোড করা ইউনিকোড পাঠ্য ধারণকারী একটি স্ট্রিং টেনসর।

পাবলিক স্ট্যাটিক ইউনিকোডট্রান্সকোড।অপশন রিপ্লেস কন্ট্রোল ক্যারেক্টার (বুলিয়ান রিপ্লেস কন্ট্রোল ক্যারেক্টার)

পরামিতি
কন্ট্রোল অক্ষর প্রতিস্থাপন করুন C0 কন্ট্রোল অক্ষর (00-1F) কে `প্রতিস্থাপন_চর` দিয়ে প্রতিস্থাপন করা হবে কিনা। ডিফল্ট মিথ্যা.

পাবলিক স্ট্যাটিক ইউনিকোড ট্রান্সকোড। বিকল্প প্রতিস্থাপন চর (দীর্ঘ প্রতিস্থাপন চর)

পরামিতি
প্রতিস্থাপনচর প্রতিস্থাপন অক্ষর কোডপয়েন্ট ইনপুটে কোনো অবৈধ বিন্যাসের জায়গায় ব্যবহার করা হবে যখন `errors='replace'`। যেকোনো বৈধ ইউনিকোড কোডপয়েন্ট ব্যবহার করা যেতে পারে। ডিফল্ট মান হল ডিফল্ট ইউনিকোড প্রতিস্থাপন অক্ষর হল 0xFFFD বা U+65533।)

মনে রাখবেন যে UTF-8-এর জন্য, 1 বাইটে প্রকাশযোগ্য একটি প্রতিস্থাপন অক্ষর পাস করা, যেমন ' ', উৎসে স্ট্রিং সারিবদ্ধকরণ সংরক্ষণ করবে কারণ অবৈধ বাইট 1-বাইট প্রতিস্থাপনের সাথে প্রতিস্থাপিত হবে। UTF-16-BE এবং UTF-16-LE-এর জন্য, যেকোনো 1 বা 2 বাইট প্রতিস্থাপন অক্ষর উৎসে বাইট সারিবদ্ধকরণ সংরক্ষণ করবে।