ইউনিকোড কোড পয়েন্টের ক্রমানুসারে `ইনপুট`-এ প্রতিটি স্ট্রিং ডিকোড করে।
সমস্ত স্ট্রিংয়ের জন্য অক্ষর কোডপয়েন্টগুলি একটি একক ভেক্টর `char_values` ব্যবহার করে ফেরত দেওয়া হয়, স্ট্রিংগুলিকে সারি-প্রধান ক্রমে অক্ষরগুলিতে প্রসারিত করা হয়। একইভাবে, ক্যারেক্টার স্টার্ট বাইট অফসেটগুলি একটি একক ভেক্টর `char_to_byte_starts` ব্যবহার করে ফেরত দেওয়া হয়, স্ট্রিংগুলিকে সারি-প্রধান ক্রমে প্রসারিত করা হয়।
`সারি_বিভক্ত` টেনসর নির্দেশ করে যে প্রতিটি ইনপুট স্ট্রিংয়ের কোডপয়েন্ট এবং স্টার্ট অফসেটগুলি `char_values` এবং `char_to_byte_starts` টেনসরের মধ্যে কোথায় শুরু এবং শেষ হয়। বিশেষ করে, `i`ম স্ট্রিং (সারি-প্রধান ক্রমে) এর মানগুলি `[সারি_বিভাজন[i]:রো_বিভাজন[i+1]]` স্লাইসে সংরক্ষণ করা হয়। এইভাবে:
- `char_values[row_splits[i]+j]` হল `i`th স্ট্রিং (সারি-প্রধান ক্রমে) `j`ম অক্ষরের জন্য ইউনিকোড কোডপয়েন্ট।
- `char_to_bytes_starts[row_splits[i]+j]` হল `i`তম স্ট্রিং (সারি-প্রধান ক্রমে) `j`ম অক্ষরের জন্য স্টার্ট বাইট অফসেট।
- `সারি_বিভাজন[i+1] - সারি_বিভাজন[i]` হল `i`তম স্ট্রিং-এর অক্ষরের সংখ্যা (সারি-প্রধান ক্রমে)।
নেস্টেড ক্লাস
ক্লাস | UnicodeDecodeWithOffsets.Options | UnicodeDecodeWithOffsets জন্য ঐচ্ছিক বৈশিষ্ট্য |
ধ্রুবক
স্ট্রিং | OP_NAME | এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত |
পাবলিক পদ্ধতি
আউটপুট < TInt64 > | charToByteStarts () একটি 1D int32 টেনসর যেখানে ইনপুট স্ট্রিং-এ বাইট সূচক রয়েছে যেখানে `char_values`-এর প্রতিটি অক্ষর শুরু হয়। |
আউটপুট < TInt32 > | অক্ষর মান () একটি 1D int32 টেনসর যাতে ডিকোড করা কোডপয়েন্ট থাকে। |
স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট < TInt64 > | |
স্ট্যাটিক <T TNumber প্রসারিত করে > UnicodeDecodeWithOffsets <T> | |
স্ট্যাটিক UnicodeDecodeWithOffsets.Options | ত্রুটি (স্ট্রিং ত্রুটি) |
স্ট্যাটিক UnicodeDecodeWithOffsets.Options | রিপ্লেস কন্ট্রোল ক্যারেক্টার (বুলিয়ান রিপ্লেস কন্ট্রোল ক্যারেক্টার) |
স্ট্যাটিক UnicodeDecodeWithOffsets.Options | প্রতিস্থাপন চর (দীর্ঘ প্রতিস্থাপন চর) |
আউটপুট <T> | সারি স্প্লিট () একটি 1D int32 টেনসর যাতে সারি বিভক্ত হয়। |
উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি
ধ্রুবক
সর্বজনীন স্ট্যাটিক চূড়ান্ত স্ট্রিং OP_NAME
এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত
পাবলিক পদ্ধতি
সর্বজনীন আউটপুট < TInt64 > charToByteStarts ()
একটি 1D int32 টেনসর যেখানে ইনপুট স্ট্রিং-এ বাইট সূচক রয়েছে যেখানে `char_values`-এর প্রতিটি অক্ষর শুরু হয়।
পাবলিক স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট < TInt64 > তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, বিকল্প... বিকল্প)
ডিফল্ট আউটপুট প্রকারগুলি ব্যবহার করে একটি নতুন UnicodeDecodeWithOffsets অপারেশন মোড়ানো ক্লাস তৈরি করার কারখানার পদ্ধতি।
পরামিতি
সুযোগ | বর্তমান সুযোগ |
---|---|
ইনপুট | পাঠ্যটি ডিকোড করতে হবে। যে কোন আকৃতি থাকতে পারে। লক্ষ্য করুন যে আউটপুট চার মানগুলির একটি ভেক্টরে সমতল করা হয়েছে। |
ইনপুট এনকোডিং | ইনপুট স্ট্রিং এর টেক্সট এনকোডিং। এটি ICU ucnv অ্যালগরিদমিক রূপান্তরকারী দ্বারা সমর্থিত যেকোন এনকোডিং। উদাহরণ: `"UTF-16", "US ASCII", "UTF-8"`৷ |
বিকল্প | ঐচ্ছিক বৈশিষ্ট্য মান বহন করে |
রিটার্নস
- UnicodeDecodeWithOffsets এর একটি নতুন উদাহরণ
পাবলিক স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট <T> তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, ক্লাস<T> টিস্প্লিট, বিকল্প... বিকল্প)
একটি নতুন UnicodeDecodeWithOffsets অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।
পরামিতি
সুযোগ | বর্তমান সুযোগ |
---|---|
ইনপুট | পাঠ্যটি ডিকোড করতে হবে। যে কোন আকৃতি থাকতে পারে। লক্ষ্য করুন যে আউটপুট চার মানগুলির একটি ভেক্টরে সমতল করা হয়েছে। |
ইনপুট এনকোডিং | ইনপুট স্ট্রিং এর টেক্সট এনকোডিং। এটি ICU ucnv অ্যালগরিদমিক রূপান্তরকারী দ্বারা সমর্থিত যেকোন এনকোডিং। উদাহরণ: `"UTF-16", "US ASCII", "UTF-8"`৷ |
বিকল্প | ঐচ্ছিক বৈশিষ্ট্য মান বহন করে |
রিটার্নস
- UnicodeDecodeWithOffsets এর একটি নতুন উদাহরণ
পাবলিক স্ট্যাটিক UnicodeDecodeWithOffsets.Options ত্রুটি (স্ট্রিং ত্রুটি)
পরামিতি
ত্রুটি | ইনপুটে অবৈধ বিন্যাস পাওয়া গেলে নীতি পরিচালনার ত্রুটি৷ 'কঠোর' মান অপারেশনটিকে যে কোনো অবৈধ ইনপুট বিন্যাসে একটি InvalidArgument ত্রুটি তৈরি করবে। 'প্রতিস্থাপন' (ডিফল্ট) এর একটি মান অপারেশনটিকে ইনপুটে যেকোন অবৈধ বিন্যাসকে `প্রতিস্থাপন_চার` কোডপয়েন্ট দিয়ে প্রতিস্থাপন করবে। 'উপেক্ষা' এর একটি মান অপারেশনটিকে ইনপুটে কোনো অবৈধ বিন্যাস এড়িয়ে যেতে এবং কোনো সংশ্লিষ্ট আউটপুট অক্ষর তৈরি করবে না। |
---|
পাবলিক স্ট্যাটিক ইউনিকোডডিকোডউইথঅফসেটস।অপশন রিপ্লেস কন্ট্রোল ক্যারেক্টার (বুলিয়ান রিপ্লেস কন্ট্রোল ক্যারেক্টার)
পরামিতি
কন্ট্রোল অক্ষর প্রতিস্থাপন করুন | C0 কন্ট্রোল অক্ষর (00-1F) কে `প্রতিস্থাপন_চর` দিয়ে প্রতিস্থাপন করা হবে কিনা। ডিফল্ট মিথ্যা. |
---|
পাবলিক স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট। বিকল্প প্রতিস্থাপনচর (দীর্ঘ প্রতিস্থাপনচর)
পরামিতি
প্রতিস্থাপনচর | প্রতিস্থাপন অক্ষর কোডপয়েন্ট ইনপুটে কোনো অবৈধ বিন্যাসের জায়গায় ব্যবহার করা হবে যখন `errors='replace'`। যেকোনো বৈধ ইউনিকোড কোডপয়েন্ট ব্যবহার করা যেতে পারে। ডিফল্ট মান হল ডিফল্ট ইউনিকোড প্রতিস্থাপন অক্ষর হল 0xFFFD বা U+65533।) |
---|