UnicodeDecodeWithOffsets

পাবলিক ফাইনাল ক্লাস UnicodeDecodeWithOffsets

ইউনিকোড কোড পয়েন্টের ক্রমানুসারে `ইনপুট`-এ প্রতিটি স্ট্রিং ডিকোড করে।

সমস্ত স্ট্রিংয়ের জন্য অক্ষর কোডপয়েন্টগুলি একটি একক ভেক্টর `char_values` ব্যবহার করে ফেরত দেওয়া হয়, স্ট্রিংগুলিকে সারি-প্রধান ক্রমে অক্ষরগুলিতে প্রসারিত করা হয়। একইভাবে, ক্যারেক্টার স্টার্ট বাইট অফসেটগুলি একটি একক ভেক্টর `char_to_byte_starts` ব্যবহার করে ফেরত দেওয়া হয়, স্ট্রিংগুলিকে সারি-প্রধান ক্রমে প্রসারিত করা হয়।

`সারি_বিভক্ত` টেনসর নির্দেশ করে যে প্রতিটি ইনপুট স্ট্রিংয়ের কোডপয়েন্ট এবং স্টার্ট অফসেটগুলি `char_values` এবং `char_to_byte_starts` টেনসরের মধ্যে কোথায় শুরু এবং শেষ হয়। বিশেষ করে, `i`ম স্ট্রিং (সারি-প্রধান ক্রমে) এর মানগুলি `[সারি_বিভাজন[i]:রো_বিভাজন[i+1]]` স্লাইসে সংরক্ষণ করা হয়। এইভাবে:

  • `char_values[row_splits[i]+j]` হল `i`th স্ট্রিং (সারি-প্রধান ক্রমে) `j`ম অক্ষরের জন্য ইউনিকোড কোডপয়েন্ট।
  • `char_to_bytes_starts[row_splits[i]+j]` হল `i`তম স্ট্রিং (সারি-প্রধান ক্রমে) `j`ম অক্ষরের জন্য স্টার্ট বাইট অফসেট।
  • `সারি_বিভাজন[i+1] - সারি_বিভাজন[i]` হল `i`তম স্ট্রিং-এর অক্ষরের সংখ্যা (সারি-প্রধান ক্রমে)।

নেস্টেড ক্লাস

ক্লাস UnicodeDecodeWithOffsets.Options UnicodeDecodeWithOffsets জন্য ঐচ্ছিক বৈশিষ্ট্য

ধ্রুবক

স্ট্রিং OP_NAME এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

পাবলিক পদ্ধতি

আউটপুট < TInt64 >
charToByteStarts ()
একটি 1D int32 টেনসর যেখানে ইনপুট স্ট্রিং-এ বাইট সূচক রয়েছে যেখানে `char_values`-এর প্রতিটি অক্ষর শুরু হয়।
আউটপুট < TInt32 >
অক্ষর মান ()
একটি 1D int32 টেনসর যাতে ডিকোড করা কোডপয়েন্ট থাকে।
স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট < TInt64 >
তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, বিকল্প... বিকল্প)
ডিফল্ট আউটপুট প্রকারগুলি ব্যবহার করে একটি নতুন UnicodeDecodeWithOffsets অপারেশন মোড়ানো ক্লাস তৈরি করার কারখানার পদ্ধতি।
স্ট্যাটিক <T TNumber প্রসারিত করে > UnicodeDecodeWithOffsets <T>
তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, ক্লাস<T> টিস্প্লিট, বিকল্প... বিকল্প)
একটি নতুন UnicodeDecodeWithOffsets অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।
স্ট্যাটিক UnicodeDecodeWithOffsets.Options
ত্রুটি (স্ট্রিং ত্রুটি)
স্ট্যাটিক UnicodeDecodeWithOffsets.Options
রিপ্লেস কন্ট্রোল ক্যারেক্টার (বুলিয়ান রিপ্লেস কন্ট্রোল ক্যারেক্টার)
স্ট্যাটিক UnicodeDecodeWithOffsets.Options
প্রতিস্থাপন চর (দীর্ঘ প্রতিস্থাপন চর)
আউটপুট <T>
সারি স্প্লিট ()
একটি 1D int32 টেনসর যাতে সারি বিভক্ত হয়।

উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি

ধ্রুবক

সর্বজনীন স্ট্যাটিক চূড়ান্ত স্ট্রিং OP_NAME

এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

ধ্রুবক মান: "UnicodeDecodeWithOffsets"

পাবলিক পদ্ধতি

সর্বজনীন আউটপুট < TInt64 > charToByteStarts ()

একটি 1D int32 টেনসর যেখানে ইনপুট স্ট্রিং-এ বাইট সূচক রয়েছে যেখানে `char_values`-এর প্রতিটি অক্ষর শুরু হয়।

সর্বজনীন আউটপুট < TInt32 > charValues ​​()

একটি 1D int32 টেনসর যাতে ডিকোড করা কোডপয়েন্ট থাকে।

পাবলিক স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট < TInt64 > তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, বিকল্প... বিকল্প)

ডিফল্ট আউটপুট প্রকারগুলি ব্যবহার করে একটি নতুন UnicodeDecodeWithOffsets অপারেশন মোড়ানো ক্লাস তৈরি করার কারখানার পদ্ধতি।

পরামিতি
সুযোগ বর্তমান সুযোগ
ইনপুট পাঠ্যটি ডিকোড করতে হবে। যে কোন আকৃতি থাকতে পারে। লক্ষ্য করুন যে আউটপুট চার মানগুলির একটি ভেক্টরে সমতল করা হয়েছে।
ইনপুট এনকোডিং ইনপুট স্ট্রিং এর টেক্সট এনকোডিং। এটি ICU ucnv অ্যালগরিদমিক রূপান্তরকারী দ্বারা সমর্থিত যেকোন এনকোডিং। উদাহরণ: `"UTF-16", "US ASCII", "UTF-8"`৷
বিকল্প ঐচ্ছিক বৈশিষ্ট্য মান বহন করে
রিটার্নস
  • UnicodeDecodeWithOffsets এর একটি নতুন উদাহরণ

পাবলিক স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট <T> তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TString > ইনপুট, স্ট্রিং ইনপুট এনকোডিং, ক্লাস<T> টিস্প্লিট, বিকল্প... বিকল্প)

একটি নতুন UnicodeDecodeWithOffsets অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।

পরামিতি
সুযোগ বর্তমান সুযোগ
ইনপুট পাঠ্যটি ডিকোড করতে হবে। যে কোন আকৃতি থাকতে পারে। লক্ষ্য করুন যে আউটপুট চার মানগুলির একটি ভেক্টরে সমতল করা হয়েছে।
ইনপুট এনকোডিং ইনপুট স্ট্রিং এর টেক্সট এনকোডিং। এটি ICU ucnv অ্যালগরিদমিক রূপান্তরকারী দ্বারা সমর্থিত যেকোন এনকোডিং। উদাহরণ: `"UTF-16", "US ASCII", "UTF-8"`৷
বিকল্প ঐচ্ছিক বৈশিষ্ট্য মান বহন করে
রিটার্নস
  • UnicodeDecodeWithOffsets এর একটি নতুন উদাহরণ

পাবলিক স্ট্যাটিক UnicodeDecodeWithOffsets.Options ত্রুটি (স্ট্রিং ত্রুটি)

পরামিতি
ত্রুটি ইনপুটে অবৈধ বিন্যাস পাওয়া গেলে নীতি পরিচালনার ত্রুটি৷ 'কঠোর' মান অপারেশনটিকে যে কোনো অবৈধ ইনপুট বিন্যাসে একটি InvalidArgument ত্রুটি তৈরি করবে। 'প্রতিস্থাপন' (ডিফল্ট) এর একটি মান অপারেশনটিকে ইনপুটে যেকোন অবৈধ বিন্যাসকে `প্রতিস্থাপন_চার` কোডপয়েন্ট দিয়ে প্রতিস্থাপন করবে। 'উপেক্ষা' এর একটি মান অপারেশনটিকে ইনপুটে কোনো অবৈধ বিন্যাস এড়িয়ে যেতে এবং কোনো সংশ্লিষ্ট আউটপুট অক্ষর তৈরি করবে না।

পাবলিক স্ট্যাটিক ইউনিকোডডিকোডউইথঅফসেটস।অপশন রিপ্লেস কন্ট্রোল ক্যারেক্টার (বুলিয়ান রিপ্লেস কন্ট্রোল ক্যারেক্টার)

পরামিতি
কন্ট্রোল অক্ষর প্রতিস্থাপন করুন C0 কন্ট্রোল অক্ষর (00-1F) কে `প্রতিস্থাপন_চর` দিয়ে প্রতিস্থাপন করা হবে কিনা। ডিফল্ট মিথ্যা.

পাবলিক স্ট্যাটিক ইউনিকোডডিকোড উইথঅফসেট। বিকল্প প্রতিস্থাপনচর (দীর্ঘ প্রতিস্থাপনচর)

পরামিতি
প্রতিস্থাপনচর প্রতিস্থাপন অক্ষর কোডপয়েন্ট ইনপুটে কোনো অবৈধ বিন্যাসের জায়গায় ব্যবহার করা হবে যখন `errors='replace'`। যেকোনো বৈধ ইউনিকোড কোডপয়েন্ট ব্যবহার করা যেতে পারে। ডিফল্ট মান হল ডিফল্ট ইউনিকোড প্রতিস্থাপন অক্ষর হল 0xFFFD বা U+65533।)

সর্বজনীন আউটপুট <T> rowSplits ()

একটি 1D int32 টেনসর যাতে সারি বিভক্ত হয়।